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by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist/Github 


TensorFlow 教程 #01 


简单 线性 模型 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist /Github 


介绍 
这 份 教程 示范 了 在 TensorFlow 中 使 用 一 个 简单 线性 模型 的 工作 流程 。 在 载 入 称 为 


MNIST 的 手写 数字 图 片 数 据 集 后 ， 我 们 在 TensorFlow 中 定义 并 优化 了 一 个 数学 模 
型 。 (我 们 ) 会 画 出 结果 并 展开 讨论 。 


你 应 该 熟悉 基本 的 线性 代数 ，Python 和 Jupyter Notebook 编 辑 器 。 如 果 你 对 机 器 学 
习 和 分 类 有 基本 的 理解 也 很 有 帮助 。 


导入 


%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 


1& FA Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.12.0-rc1' 


载 入 数据 
MNIST 数 据 集 大 约 有 12MB， 如 果 给 定 的 地 址 里 没有 文件 ， 它 将 自动 下 载 。 


from tensorflow.examples.tutorials.mnist import input_data 
data = input_data.read_data_sets("data/MNIST/", one_hot=True) 


Extracting data/MNIST/train-images-idx3-ubyte.gz 
Extracting data/MNIST/train-labels-idx1-ubyte.gz 
Extracting data/MNIST/ti10k-images-idx3-ubyte.gz 
Extracting data/MNIST/t10k-labels-idx1-ubyte.gz 


现在 "pe. ， 它 由 70,000 张 图 像 和 对 应 的 标签 (比如 图 像 的 类 
别 ) 组 成 。 数 据 集 分 成 三 份 互相 独立 的 子 集 。 我 们 在 教程 中 只 用 训练 集 和 测试 集 。 


print("Size or: 

print("- Training-set:\t\t{}".format(len(data.train.labels))) 
print("- Test-set:\t\t{}".format(len(data.test.labels))) 
print("- Validation-set:\t{}".format(len(data.validation.labels) 
)) 


Size of: 

- Training-set: 55000 
- Test-set: 10000 

- Validation-set: 5000 


One-Hot 编码 

数据 集 以 一 种 称 为 One-Hot 编 码 的 方式 载 入 。 这 意味 着 标签 从 一 个 单独 的 数字 转换 
成 一 个 长 度 等 于 所 有 可 能 类 别 数量 的 向 量 。 向 量 中 除 了 第 $i$ 个 元 素 是 1 3 其 他 元 素 
都 是 0， 这 代表 着 它 的 类 别 是 $i$'。 比 如 ， 前 面 五 张 图 像 标签 的 One-Hot 编 码 为 : 


data.test.labels[0:5, :] 


array([ 
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在 不 同 的 比较 和 度量 性 能 时 ， 我 们 也 需要 用 单独 的 数字 表示 类 别 ， 因此 我 们 通 过 取 
最 大 元 素 的 索引 ， 将 One-Hot 编 码 的 向 量 转换 成 一 个 单独 的 数字 。 需 注意 的 
是 'class' 在 Python 中 是 一 个 关键 字 ， 所 以 我 们 用 "cls' 代 替 它 。 


data.test.cls = np.array([label.argmax() for label in data.test. 
labels] ) 


现在 我 们 可 以 看 到 测试 集中 前 面 五 张 图 像 的 类 别 。 将 这 些 与 上 面 的 One-Hot 编 码 的 
向 量 进行 比较 。 人 例如， 第 一 张 图 像 的 类 别 是 7， 对 应 的 在 Dne-Hot 编 码 向 量 中 ， 除 了 
第 7 个 元 素 其 他 都 为 零 。 


data.test.cls[0:5] 


array([7, 2, 1, ©, 4] 


数据 维度 
在 下 面 的 源码 中 ， 有 很 多 地 方 用 到 了 数据 维度 。 在 计算 机 编程 中 ， 通 常 来 说 最 好 使 


用 变量 和 常量 ， 而 不 是 在 每 次 使 用 数值 时 写 硬 代码 。 这 意味 着 数字 只 需要 在 一 个 地 
方 改动 就 行 。 这 些 最 好 能 从 读 取 的 数据 中 获取 ， 但 这 里 我 们 直接 写 上 数值 。 


# We know that MNIST images are 28 pixels in each dimension. 
img_size = 28 


# Images are stored in one-dimensional arrays of this length. 
img_size_flat = img_size * img_size 


# Tuple with height and width of images used to reshape arrays. 
img_shape = (img_size, img_size) 


# Number of classes, one class for each of 10 digits. 
num_classes = 10 


用 来 绘制 图 像 的 帮助 函数 


这 个 函数 用 来 在 3X3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图 像 下 面 写 出 真实 的 和 预测 的 
类 别 o 


def plot_images(images, cls_true, cls_pred=None): 
assert len(images) == len(cls_true) == 


# Create figure with 3x3 sub-plots. 
fig, axes = plt.subplots(3, 3) 
fig.subplots_adjust(hspace=0.3, wspace=0.3) 


for i, ax in enumerate(axes.flat): 
# Plot image. 
ax.imshow(images[i].reshape(img_shape), cmap='binary' ) 


# Show true and predicted classes. 
if cls_pred is None: 
xlabel = "True: (0j".format(cls true[i]) 
else: 
Xlabel = "True: (0), Pred: {1}".format(cls_true[i], 
cls_pred[i]) 


ax.set_xlabel(xlabel) 
# Remove ticks from the plot. 


ax.set_xticks([]) 
ax.set_yticks([]) 


绘制 几 张 图 像 来 看 看 数据 是 否 正 确 
# Get the first images from the test-set. 
images = data.test.images[0:9] 


# Get the true classes for those images. 
cls_true = data.test.cls[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true) 


True: 7 True: 2 True: 1 
True: 0 True: 4 True: 1 
q4 A © 
True: 4 True: 9 True: 5 

TensorFlow X 


TensorFlow 的 全 部 目的 就 是 使 用 一 个 称 之 为 计算 图 (computational graph) 的 东 
西 ， 它 会 比 直接 在 Python 中 进行 相同 计算 量 要 高 效 得 多 。TensorFlow 比 Numpy 更 高 
效 ， 因 为 TensorFlow 了 解 整个 需要 运行 的 计算 图 ， 然 而 Numpy 只 知道 某 个 时 间 点 上 
唯一 的 数学 运算 。 


TensorFlow 也 能 够 自动 地 计算 需要 优化 的 变量 的 梯度 ， 使 得 模型 有 更 好 的 表现 。 这 
是 由 于 Graph 是 简单 数学 表达 式 的 结合 ， 因 此 整个 图 的 梯度 可 以 用 链 式 法 则 推导 出 


TensorFlow 还 能 利用 多 核 CPU 和 GPU，Google 也 为 TensorFlow 制 造 了 称 为 
TPUs (Tensor Processing Units) 的 特殊 芯片 ， 它 比 GPU 更 快 。 


一 个 TensorFlow 图 由 下 面 几 个 部 分 组 成 ， 后 面 会 详细 描述 : 


e hizi ZE (Placeholder) 用 来 改变 图 的 输入 。 

。 模 型 变量 (Model) 将 会 被 优化 ， 使 得 模型 表现 得 更 好 。 

e 模型 本 质 上 就 是 一 些 数学 函数 ， 它 根据 Placeholder 和 模型 的 输入 变量 来 计算 一 
些 输出 。 

e 一 个 cost 度 量 用 来 指导 变量 的 优化 。 

e 一 个 优化 策略 会 更 新 模型 的 变量 。 


另外 ，TensorFlow 图 也 包含 了 一 些 调试 状态 ， 比 如 用 TensorBoard 打 印 log 数 据 ， 本 
教程 不 涉及 这 些 。 
占 位 符 (Placeholder) € € 


Placeholder 是 作为 图 的 输入 ， 每 次 我 们 运行 图 的 时 候 都 可 能 会 改变 它们 。 将 这 个 过 
程 称 为 feeding placeholder 变 量 ， 后 面 将 会 描述 它 。 


首先 我 们 为 输入 图 像 定 义 placeholder 变 量 。 这 让 我 们 可 以 改变 输入 到 TensorFlow 图 
中 的 图 像 。 这 也 是 一 个 张 量 (tensor) ， 代 表 一 个 多 维 向 量 或 矩阵 。 数 据 类 型 设置 
为 float32 ， 形 状 设 为 [None，img_size flat] ^ None 代表 tensor 可 能 保存 
着 任意 数量 的 图 像 ， 每 张 图 象 是 一 个 长 度 为 img size flat 的 向 量 。 


x = tf.placeholder(tf.float32, [None, img_size_flat]) 


接 下 来 我 们 为 输入 变量 x Phy EP HAH ALi € 3 placeholder € € » FF 
的 形状 是 [None, num classes] ， 这 代表 着 它 保存 了 任意 数量 的 标签 ， 每 个 标签 
是 长 度 为 num classes 的 向 量 ， 本 例 中 长 度 为 10。 


g 


y true - tf.placeholder(tf.float32, [None, num classes]) 


最 后 我 们 为 变量 x CP ER AS A E XE 31 3 placeholder € € » EI LEEU > FAR 
个 变量 的 维度 设 为 [None] ， 代 表 placeholder 变 量 是 任意 长 的 一 维 向 量 。 


y_true_cls = tf.placeholder(tf.int64, [None]) 


需要 优化 的 变量 


除了 上 面 定 义 的 那些 给 模型 输入 数据 的 变量 之 外 ，TensorFlow 还 需要 改变 一 些 模型 
变量 ， 使 得 训练 数据 的 表现 更 好 。 


第 一 个 需要 优化 的 变量 称 为 权重 weight ，TensorFlow 变 量 需 要 被 初始 化 为 零 ， 它 
的 形状 是 [img size flat, num classes] ， 因 此 它 是 一 
个 img size flat 行 、 num classes 列 的 二 维 张 量 (RIE) © 


weights = tf.Variable(tf.zeros([img size flat, num classes])) 


第 二 个 需要 优化 的 是 偏差 变量 biases ， 它 被 定义 成 一 个 长 度 为 num classes 的 
1 维 张 量 (或 向 量 ) 。 


biases = tf.Variable(tf.zeros([num classes])) 


模型 


这 个 最 基本 的 数学 模型 将 placeholder 变 量 x 中 的 图 像 与 权重 weight 相 乘 ， 然 后 
加 上 偏差 biases ° 


num_images, img_size_flat] 并 且 weights 的 形状 
img size flat, num classes] ， 因 此 两 个 矩阵 乘积 的 形状 
num images, num classes] ， 然 后 将 biases 向 量 添加 到 矩阵 每 一 行 中 。 
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果 是 大 小 为 [num images, num classes] 9 -T EEE > dT x 的 形状 
[ 
[ 
[ 


logits = tf.matmul(x, weights) + biases 


现在 logits 是 一 个 num images fT num classes 列 的 矩阵 ， 第 $i$ 行 第 $j$ 列 
的 那个 元 素 代表 着 第 $i$ 张 输入 图 像 有 多 大 可 能 性 是 第 $j$ 个 类 别 。 


然而 ， 这 是 很 粗略 的 估计 并 且 很 难 解 释 ， 因 为 数值 可 能 很 小 或 很 大 ， 因 此 我 们 想 要 
对 它们 做 归 一 化 ， 使 得 logits 短 阵 的 每 一 行 相 加 为 1， 每 个 元 素 限 制 在 0 到 1 之 
间 。 这 是 用 一 个 称 为 Softmax 的 函数 来 计算 的 ， 结 果 保 存在 y pred 中 。 


y_pred = tf.nn.softmax(logits) 


可 以 从 y pred HE TREE KIE MR NE KFA MMH Kl o 


y pred cls = tf.argmax(y_pred, dimension=1) 


优化 损失 函数 


为 了 使 模型 更 好 地 对 输入 图 像 进 行 分 类 ， 我 们 必须 改变 weights 和 biases € 
量 。 首 先 我 们 需要 比较 模型 的 预测 输出 y pred 和 期 望 输出 y true. ， 来 了 解 目 
前 模型 的 性 能 如 何 。 


交 又 (cross-entropy) *—ME PAR PRA ANAS o XUI GE A Ea 
的 连续 函数 ， 如 果 模 型 的 预测 值 精准 地 符合 期 望 的 输出 ， 它 就 等 于 零 。 因 此 ， 优 化 
& B S SEE ROME RT Lo AN AREA T weights 和 biases 594& > 1% X 3 7 


TensorFlow4 — AA E 8&5 3T JE 3t Li AH: ER AECA logits 的 值 ， 
因为 在 它 内 部 也 计算 了 softmax » 


cross entropy = tf.nn.softmax cross entropy with logits(logits-1 
ogits, 

labels-y 
_true) 


现在 ， 我 们 已 经 为 每 个 图 像 分 类 计算 了 交叉 焙 ， 所 以 有 一 个 当前 模型 在 每 张 图 上 的 
性 能 度量 。 但 是 为 了 用 交 又 蛟 来 指导 模型 变量 的 优化 ， 我 们 需要 一 个 额外 的 标量 
值 ， 因 此 我 们 简单 地 利用 所 有 图 像 分 类 交 又 灶 的 均值 。 


cost = tf.reduce_mean(cross_entropy) 


优化 方法 


现在 ， 我 们 有 一 个 需要 被 最 小 化 的 损失 度量 ， 接 着 我 们 可 以 创建 优化 器 。 在 这 种 情 

况 中 ， 用 的 是 梯度 下 降 的 基本 形式 ， 步 长 设 为 0.5。 

.. e 实际 上 ， 还 没 计 算 任 何 东 西 ， 我 们 只 是 往 TensorFlow 
图 中 添加 了 优化 器 ， 以 便 之 后 的 操作 。 


optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.5) 


.minimize(cost) 
性 能 度量 
我 们 需要 另外 一 些 性 能 来 向 用 户 展 示 这 个 过 程 。 


这 是 一 个 布尔 值 向 量 ， 代 表 预 测 类 型 是 否 等 于 每 张 图片 的 丨 实 类 型 。 


correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


上 面 先 将 布尔 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 成 1， 
然后 计算 这 些 值 的 平均 数 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


运行 TensorFlow 


创建 TensorFlow 会 话 (session ) 


一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow session， 用 来 运行 图 


session = tf.Session() 


初始 化 变量 


我 们 需要 在 开始 优化 weights 和 biases 变量 之 前 对 它们 进行 初始 化 。 


session.run(tf.global variables initializer()) 


用 来 优化 迭代 的 帮助 函 


在 训练 集中 有 50,000 张 图 。 用 这 些 图 像 计算 模型 的 梯度 会 花 很 多 时 间 。 因 此 我 们 利 
用 随机 梯度 下 降 的 方法 ， 它 在 优化 器 的 每 次 迭代 里 只 用 到 了 一 小 部 分 的 图 像 。 


batch_size = 100 


函数 执行 了 多 次 的 优化 迭代 来 逐步 地 提升 模型 的 weights 和 biases 。 o FE ERIK 
代 中 ， 从 训练 集中 选择 一 批 新 的 数据 ， 然 后 TensorFlow 用 这 些 训 练 样本 来 执行 优化 


yw 
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def optimize(num iterations): 
for i in range(num_iterations): 
# Get a batch of training examples. 
# x batch now holds a batch of images and 
# y true batch are the true labels for those images. 
X batch, y true batch - data.train.next batch(batch size 


) 
4 Put the batch into a dict with the proper names 
4 for placeholder variables in the TensorFlow graph. 
4 Note that the placeholder for y true cls is not set 
4 because it is not used during training. 
feed dict train - (x: x batch, 
y true: y true batch) 
4 Run the optimizer using this batch of training data. 
4 TensorFlow assigns the variables in feed dict train 
4 to the placeholder variables and then runs the optimiz 
er. 


session.run(optimizer, feed dict-feed dict train) 


展示 性 能 的 帮助 函数 


测试 集 数 据 字 典 被 当做 TensorFlow 图 的 输入 。 注 意 ， 在 TensorFlow 图 中 ， 
placeholder 变 量 必 须 使 用 正确 的 名 字 。 


feed dict test = {x: data.test.images, 
y_true: data.test.labels, 
y_true_cls: data.test.cls} 


用 来 打印 测试 集 分 类 准确 度 à 


def print_accuracy(): 
# Use TensorFlow to compute the accuracy. 
acc = session.run(accuracy, feed_dict=feed_dict_test) 


# Print the accuracy. 
print("Accuracy on test-set: {0:.1%}".format(acc) ) 


Function for printing and plotting the confusion matrix using scikit-learn. 


A scikit-learn4T FREE SEE © 


def print_confusion_matrix(): 
# Get the true classifications for the test-set. 
cls_true = data.test.cls 


# Get the predicted classifications for the test-set. 
cls_pred = session.run(y_pred_cls, feed_dict=feed_dict_test) 


# Get the confusion matrix using sklearn. 
cm = confusion_matrix(y_true=cls_true, 
y_pred=cls_pred) 


# Print the confusion matrix as text. 
print(cm) 


# Plot the confusion matrix as an image. 
plt.imshow(cm, interpolation='nearest', cmap=plt.cm.Blues) 


# Make various adjustments to the plot. 
plt.tight_layout() 

plt.colorbar() 

tick_marks = np.arange(num_classes) 
plt.xticks(tick_marks, range(num_classes)) 
plt.yticks(tick_marks, range(num_classes)) 
plt.xlabel( 'Predicted') 

plt.ylabel('True') 


绘制 测试 集中 误 分 类 图 像 的 函数 。 


def plot example errors(): 
# Use TensorFlow to get a list of boolean values 
# whether each test-image has been correctly classified, 
# and a list for the predicted class of each image. 
correct, cls_pred = session.run([correct_prediction, y_pred_ 
cls], 
feed dict-feed dict test) 


# Negate the boolean array. 
incorrect = (correct == False) 


# Get the images from the test-set that have been 
# incorrectly classified. 
images = data.test.images[incorrect ] 


# Get the predicted classes for those images. 
cls pred = cls_pred[incorrect ] 


# Get the true classes for those images. 
cls true = data.test.cls[incorrect ] 


# Plot the first 9 images. 

plot_images(images=images[0:9], 
cls_true=cls_true[0:9], 
cls_pred=cls_pred[0:9]) 


绘制 模型 权重 的 帮助 函数 


这 个 函数 用 来 绘制 模型 的 权重 weights 。 画 了 10 张 图 像 ， 训 练 模型 所 识别 出 的 每 
个 数字 对 应 着 一 张 图 。 


def plot_weights(): 
Get the values for the weights from the TensorFlow variabl 
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- session.run(weights) 


Get the lowest and highest values for the weights. 
This is used to correct the colour intensity across 
images so they can be compared with each other. 


the 
min 
max 


np.min(w) 
np.max(w) 


# Create figure with 3x4 sub-plots, 

4 where the last 2 sub-plots are unused. 
fig, axes - plt.subplots(3, 4) 
fig.subplots_adjust(hspace=0.3, wspace=0.3) 


for i, ax in enumerate(axes.flat): 
# Only use the weights for the first 10 sub-plots. 
IIF is dor 


# Get the weights for the i'th digit and reshape it. 
# Note that w.shape == (img size flat, 10) 
image = w[:, i].reshape(img shape) 


# Set the label for the sub-plot. 
ax.set xlabel("Weights: {0}".format(i)) 


# Plot the image. 
ax.imshow(image, vmin-w min, vmax-w max, cmap-'seism 


4 Remove ticks from each sub-plot. 
ax.set xticks([]) 
ax.set yticks([]) 


优化 之 前 的 性 能 


测试 集 上 的 准确 度 是 9.8%。 这 是 由 于 模型 只 做 了 初始 化 ， 并 没 做 任何 优化 ， 所 以 它 
通常 将 图 像 预测 成 数字 零 ， 正 如 下 面 绘制 的 图 像 那样 ， 刚 好 测试 集中 9.8% 的 图 像 是 
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print accuracy() 


Accuracy on test-set: 9.8% 


plot example errors() 
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True: 7, Pred: 0 True: 2, Pred: 0 True: 1, Pred: 0 


z 
- 
ES 


True: 4, Pred: 0 True: 1, Pred: 0 True: 4, Pred: 0 


> 
^ 
Y 


True: 9, Pred: 0 True: 5, Pred: 0 True: 9, Pred: 0 


1 次 迭代 优化 后 的 性 能 
在 完成 一 次 迭代 优化 之 后 ， 模 型 在 测试 集 上 的 准确 率 从 9.8% 提 高 到 了 40.7%。 这 意 
味 着 它 大 约 10 次 里 面 会 误 分 类 6 次 ， 正 如 下 面 所 显示 的 。 
optimize(num_iterations=1) 
print_accuracy() 


Accuracy on test-set: 40.7% 


plot_example_errors() 


e£ d 1a 


True: 2, Pred: 6 True: 4, Pred: 0 True: 9, Pred: 6 
© 7 
True: 5, Pred: 6 True: 9, Pred: 6 True: 6, Pred: 0 
True: 9, Pred: 6 True: 1, Pred: 6 True: 5, Pred: O 


下 面 绘制 的 是 权重 。 正 值 为 红色 ， 负 值 为 蓝 色 。 这 些 权重 可 以 直观 地 理解 为 图 像 滤 


例如 ， 权 重用 来 确定 一 张 数字 零 的 图 像 对 辆 形 图 像 有 正 反应 (红色 ) ， 对 辆 形 图 像 
的 中 间 部 分 有 负 反 应 ( 蓝 色 ) 。 


类 似 的 ， 权 重 也 用 来 确定 一 张 数字 一 的 图 像 对 图 像 中 心 重 直线 段 有 正 反 应 〈 红 

E) ， 对 线段 周围 有 负 反 应 〈 蓝 色 ) > 

注意 到 权重 大 多 看 起 来 跟 它 要 识别 的 数字 很 像 。 这 是 因为 只 做 了 一 次 迭代， 即 权重 
只 在 100 张 图 像 上 训练 。 等 经 过 上 千张 图 像 的 训练 之 后 ， 权 重 会 变 得 更 难 分 辨 ， 
为 它们 需要 识别 出 数字 的 许多 种 书写 方法 。 


plot_weights() 


简单 线性 模型 






Weights: 6 Weights: 7 


EIN 


10 次 优化 迭代 后 的 性 能 


Weights: 8 Weights: 9 


# We have already performed 1 iteration. 
optimize(num iterations=9) 


print_accuracy() 


Accuracy on test-set: 78.2% 


plot_example_errors() 
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True: 9, Pred: 4 True: 5, Pred: 2 True: 9, Pred: 7 
True: 6, Pred: 2 True: 5, Pred: 3 True: 9, Pred: 4 
True: 9, Pred: 7 True: 6, Pred: 4 True: 5, Pred: 8 


plot_weights() 
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Weights: 0 Weights: 1 Weights: 2 Weights: 3 
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"- 
Weights: 5 Weights: 6 Weights: 7 
Wc mu mu 
Weights: 8 Weights: 9 
` ` ` ` 入 
1000 次 迭代 之 后 的 性 能 


在 迭代 了 1000 次 之 后 ， 模 型 在 十 次 里 面 大 约 只 误 识别 了 一 次 。 如 下 图 所 示 ， 有 些 误 
识别 情 有 可 原 ， 因 为 即使 在 人 类 眼 里 ， 也 很 难 确定 图 像 (的 数字 ) ， 然 而 有 一 些 图 
像 是 很 明显 的 ， 好 的 模型 应 该 能 分 辨 出 来 。 但 这 个 简单 的 模型 无 法 达到 更 好 的 性 
能 ， 因 此 需要 更 为 复杂 的 模型 。 


# We have already performed 10 iterations. 
optimize(num_iterations=990) 


print_accuracy() 


Accuracy on test-set: 91.7% 


plot_example_errors() 


True: 5, Pred: 6 True: 4, Pred: 6 True: 3, Pred: 2 
True: 9, Pred: 7 True: 2, Pred: 7 True: 9, Pred: 4 
True: 7, Pred: 4 True: 2, Pred: 9 True: 9, Pred: 4 


模型 经 过 了 1000 次 迭代 训练 ， 每 次 迭代 用 到 训练 集 里 面 的 100 张 图 像 。 由 于 图 像 的 
多 样 化 ， 现 在 权重 变 得 很 难 辨 认 ， 我 们 可 能 会 怀疑 这 些 权 重 是 否 丨 的 理解 数字 是 怎 
么 由 线条 组 成 的 ， 或 者 模型 只 是 记 住 了 许多 不 同 的 像素 。 


plot weights() 













Weights: 0 


Weights: 4 


Weights: 8 Weights: 9 


Weights: 6 


u 





Weights: 7 


我 们 也 可 以 打印 并 绘制 出 混淆 矩阵 ， 它 让 我 们 看 到 误 分 类 的 更 多 细节 。 例 如 ， 它 展 
示 了 描绘 着 数字 5 的 图 像 有 时 会 被 误 分 类 成 其 他 可 能 的 数字 ， 但 大 多 是 3，6 或 8。 


print_confusion_matrix() 
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现在 我 们 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# session.close() 


练习 


These are a few suggestions for exercises that may help improve your skills with 
TensorFlow. It is important to get hands-on experience with TensorFlow in order to 
learn how to use it properly. 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 在 你 对 这 个 Notebook 进 行 修改 之 前 ， 
可 能 需要 先 备份 一 下 。 


改变 优化 器 的 学 习 率 。 

改变 优化 器 ， 比 如 用 AdagradOptimizer 或 AdamOptimizer ° 

将 batch-size 改 为 1 或 1000。 

这 些 改变 如 何 影响 性 能 ? 

你 觉得 这 些 改 变 对 其 他 分 类 问题 或 数学 模型 有 相同 的 影响 吗 ? 

如 果 你 不 改变 任何 参数 ， 多 次 运行 Notebook， 会 得 到 完成 一 样 的 结果 吗 ? 为 什 
2? 

e 改变 plot example errors() Až > 4% Ci PATXI 

logits 和 y pred fä ° 


e 用 sparse_softmax_cross_entropy_with_logits 代替 
softmax_cross_entropy_with_logits 。 这 可 能 需要 改变 代码 的 多 个 地 
方 。 探 讨 使 用 这 两 中 方法 的 优 缺点 。 
e 不 看 源码 ， 自 己 重 写 程序 。 
e 向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #02 


卷 积 神经 网 络 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 


中 文 翻译 thrillerist/Github 


介绍 


先前 的 教程 展示 了 一 个 简单 的 线性 模型 ， 对 MNIST 数 据 集中 手写 数字 的 识别 率 达 到 


T91% ° 


在 这 个 教程 中 ， 我 们 会 在 TensorFlow 中 实现 一 个 简单 的 卷 积 神 经 网 络 ， 它 能 达到 大 


约 99% 的 分 类 准确 率 ， 如 果 你 做 了 一 些 建议 的 练习 ， 准 确 率 还 可 能 更 高 。 


卷 积 神 经 网 络 在 一 张 输入 图 片上 移动 一 个 小 的 滤波 器 。 这 意味 着 在 遍历 整 张 图 像 来 
识别 模式 时 ， 要 重复 使 用 这 些 滤波 器 。 这 让 卷 积 神经 网 络 在 拥有 相同 数量 的 变量 时 
比 全 连接 网 络 (Fully-Connected) 更 强大 ， 也 让 卷 积 神经 网 络 训 练 得 更 快 。 


你 应 该 熟悉 基本 的 线性 代数 、Python 和 Jupyter Notebook 编 辑 器 。 如 果 你 是 
TensorFlow 新 手 ， 在 本 教程 之 前 应 该 先 学 习 第 一 篇 教程 。 


流程 图 


下 面 的 图 表 直 接 显 示 了 之 后 实现 的 卷 积 神经 网 络 中 数据 的 传递 。 


from IPython.display import Image 


Image('images/02 network flowchart.png') 
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输入 图 像 在 第 一 层 卷 积 层 里 使 用 权重 过 滤器 处 理 。 结 果 在 16 张 新 图 里 ， 每 张 代表 了 
卷 积 层 里 一 个 过 滤器 (的 处 理 结果 ) 。 图 像 经 过 降 采 样 ， 分 辨 率 从 28x28 减 少 到 
14x14 ° 


16 张 小 图 在 第 二 个 卷 积 层 中 处 理 。 这 16 个 通道 以 及 这 层 输出 的 每 个 通道 都 需要 一 个 
过 滤 权 重 。 总 共有 36 个 输出 ， 所 以 在 第 二 个 卷 积 层 有 16 x 36 = 576 个 滤波 器 。 输 出 
图 再 一 次 降 采 样 到 7x7 个 像素 。 


第 二 个 卷 积 层 的 输出 是 36 张 7x7 像 素 的 图 像 。 它 们 被 转换 到 一 个 长 为 7 x7 x 36 = 
1764 的 向 量 中 去 ， 它 作为 一 个 有 128 个 神经 元 (或 元 素 ) 的 全 连接 网 络 的 输入 。 这 
些 又 输入 到 另 一 个 有 10 个 神经 元 的 全 连接 层 中 ， 每 个 神经 元 代表 一 个 类 别 ， 用 来 确 
定 图 像 的 类 别 ， 即 图 像 上 的 数字 。 


卷 积 滤波 一 开始 是 随机 挑选 的 ， 因 此 分 类 也 是 随机 完成 的 。 根 据 交 叉 (cross- 
entropy) 来 测量 输入 图 预测 值 和 莫 实 类 别 间 的 错误 。 然 后 优化 器 用 链 式 法 则 自动 地 
将 这 个 误差 在 卷 积 网 络 中 传递 ， 更 新 滤波 权重 来 提升 分 类 质量 。 这 个 过 程 夫 代 了 几 
千 次 ， 直 到 分 类 误差 足够 低 。 

这 些 特定 的 滤波 权重 和 中 间 图 像 是 一 个 优化 结果 ， 和 你 执行 代码 所 看 到 的 可 能 会 有 
所 不 同 。 

注意 ， 这 些 在 TensorFlow 上 的 计算 是 在 一 部 分 图 像 上 执行 ， 而 非 单独 的 一 张 图 ， 这 
使 得 计算 更 有 效 。 也 意味 着 在 TensorFlow 上 实现 时 ， 这 个 流程 图 实际 上 会 有 更 多 的 
数据 维度 。 


卷 积 层 


下 面 的 图 片 展示 了 在 第 一 个 卷 积 层 中 处 理 图 像 的 基本 思想 。 输 入 图 片 描绘 了 数字 
7， 这 里 显示 了 它 的 四 张 拷贝 ， 我 们 可 以 很 清晰 的 看 到 滤波 器 是 如 何在 图 像 的 不 同 
位 置 移 动 。 在 滤波 器 的 每 个 位 置 上 ， 计 算 滤 波 器 以 及 滤波 器 下 方 图 像 像素 的 点 乘 ， 
得 到 输出 图 像 的 一 个 像素 。 因 此 ， 在 整 张 输入 图 像 上 移动 时 ， 会 有 一 张 新 的 图 像 生 
成 o 

红色 的 滤波 权重 表示 滤波 器 对 输入 图 的 黑色 像素 有 正 响应 ， 蓝 色 的 代表 有 负 响 应 。 
在 这 个 例子 中 ， 很 明显 这 个 滤波 器 识别 数字 7 的 水 平 线段 ， 在 输出 图 中 可 以 看 到 它 
对 线段 的 强烈 响应 。 


Image('images/02 convolution.png') 


Input Image with Filter Overlaid (4 copies for clarity) 





Result of Convolution 
滤波 器 遍历 输入 图 的 移动 步 长 称 为 stride。 在 水 平和 坚 直方 向 各 有 一 个 stride 。 


在 下 面 的 源码 中 ， 两 个 方向 的 stride 都 设 为 1， 这 说 明 滤 波 器 从 输入 图 像 的 左上 角 开 
始 ， 下 一 步 移动 到 右边 1 个 像素 去 。 当 滤波 器 到 达 图 像 的 右边 时 ， 它 会 返回 最 左 

边 ， 然 后 向 下 移动 1 个 像素 。 持 续 这 个 过 程 ， 直 到 滤波 器 到 达 输 入 图 像 的 右 下 角 ， 
同时 ， 也 生成 了 整 张 输 出 图 片 。 


当 滤 波 器 到 达 输 入 图 的 右 端 或 底部 时 ， 它 会 用 零 (白色 像素 ) 来 填充 。 因 为 输出 图 
要 和 输入 图 一 样 大 。 


此 外 ， 卷 积 层 的 输出 可 能 会 传递 给 修正 线性 单元 (ReLU) ， 它 用 来 保证 输出 是 正 
值 ， 将 负 值 置 为 零 。 输 出 还 会 用 最 大 池 化 (max-pooling) 进 行 降 采样 ， 它 使 用 了 2x2 
的 小 窗口 ， 只 保留 像素 中 的 最 大 值 。 这 让 输入 图 分 辩 率 减 小 一 半 ， 比 如 从 28Xx28 到 
14x14 ° 


第 二 个 卷 积 层 更 加 复杂 ， 因 为 它 有 16 个 输入 通道 。 我 们 想 给 每 个 通道 一 个 单独 的 滤 


波 ， 因 此 需要 16 个 。 另 外 ， 我 们 想 从 第 二 个 卷 积 层 得 到 36 个 输出 ， 因 此 总 共 需 要 16 
x 36 = 576 个 滤波 器 。 要 理解 这 些 如 何 工作 可 能 有 些 困 难 。 


FA 


%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 
import time 

from datetime import timedelta 

import math 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.12.0-rc0' 


神经 网 络 的 配置 


方便 起 见 ， 在 这 里 定义 神经 网 络 的 配置 ， 你 可 以 很 容易 找到 或 改变 这 些 数值 ， 然 后 
重新 运行 Notebook 。 


# Convolutional Layer 1. 
filter_sizel = 5 # Convolution filters are 5 x 5 pixels. 


num_filtersi = 16 # There are 16 of these filters. 


# Convolutional Layer 2. 
filter_size2 = 5 # Convolution filters are 5 x 5 pixels. 


num filters2 = 36 # There are 36 of these filters. 
# Fully-connected layer. 


fc_size = 128 # Number of neurons in fully-connected 
layer. 


Bi SE 
载 入 数据 
MNIST 数 据 集 大 约 12MB， 如 果 没 在 文件 来 中 找到 就 会 自动 下 载 。 


from tensorflow.examples.tutorials.mnist import input_data 
data = input_data.read_data_sets('data/MNIST/', one_hot=True) 


Extracting data/MNIST/train-images-idx3-ubyte.gz 
Extracting data/MNIST/train-labels-idx1-ubyte.gz 
Extracting data/MNIST/ti10k-images-idx3-ubyte.gz 
Extracting data/MNIST/t10k-labels-idx1-ubyte.gz 


现在 已 经 载 入 了 MNIST 数 据 集 ， 它 由 70,000 张 图 像 和 对 应 的 标签 (比如 图 像 的 类 
别 ) 组 成 。 数 据 集 分 成 三 份 互 相 独 立 的 子 集 。 我 们 在 教程 中 只 用 训练 集 和 测试 集 。 


print("Size of) 

print("- Training-set:\t\t{}".format(len(data.train.labels))) 
print("- Test-set:\t\t{}".format(len(data.test.labels))) 
print("- Validation-set:\t{}".format(len(data.validation.labels) 
)) 


Size of: 

- Training-set: 55000 
- Test-set: 10000 

- Validation-set: 5000 


类 型 标签 使 用 One-Hot 编 码 ， 这 意外 每 个 标签 是 长 为 10 的 向 量 ， 除 了 一 个 元 素 之 
外 ， 其 他 的 都 为 零 。 这 个 元 素 的 索引 就 是 类 别 的 数字 ， 即 相应 图 片 中 画 的 数字 。 我 
们 也 需要 测试 数据 集 类 别 数字 的 整 型 值 ， 用 下 面 的 方法 来 计算 。 


data.test.cls = np.argmax(data.test.labels, axis=1) 


数据 维度 


在 下 面 的 源码 中 ， 有 很 多 地 方 用 到 了 数据 维度 。 它 们 只 在 一 个 地 方 定义 ， 因 此 我 们 
可 以 在 代码 中 使 用 这 些 数字 而 不 是 直接 写 数字 。 





# We know that MNIST images are 28 pixels in each dimension. 
img_size = 28 


# Images are stored in one-dimensional arrays of this length. 
img_size_flat = img_size * img_size 


# Tuple with height and width of images used to reshape arrays. 
img_shape = (img_size, img_size) 


# Number of colour channels for the images: 1 channel for gray-s 
cale. 
num_channels = 1 


# Number of classes, one class for each of 10 digits. 
num_classes = 10 


用 来 绘制 图 片 的 帮助 函数 


这 个 函数 用 来 在 3X3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图 像 下 面 写 出 真实 类 别 和 预测 
类 别 o 


def plot images(images, cls true, cls_pred=None): 
assert len(images) -- len(cls true) -- 


# Create figure with 3x3 sub-plots. 
fig, axes - plt.subplots(3, 3) 
fig.subplots_adjust(hspace=0.3, wspace=0.3) 


for i, ax in enumerate(axes.flat): 
# Plot image. 
ax.imshow(images[i].reshape(img shape), cmap='binary' ) 


# Show true and predicted classes. 
if cls_pred is None: 
xlabel = "True: {0}".format(cls_true[i]) 
else: 
Xlabel = "True: {0}, Pred: {1}".format(cls_true[i], 
cls_pred[i]) 


# Show the classes as the label on the x-axis. 
ax.set_xlabel(xlabel) 


# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show( ) 


绘制 几 张 图 像 来 看 看 数据 是 否 正确 
# Get the first images from the test-set. 
images = data.test.images[0:9] 


# Get the true classes for those images. 
cls_true = data.test.cls[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true) 
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TensorFlow 的 全 部 目的 就 是 使 用 一 个 称 之 为 计算 图 (computational graph) 的 东 
西 ， 它 会 比 直接 在 Python 中 进行 相同 计算 量 要 高 效 得 多 。TensorFlow 比 Numpy 更 高 
效 ， 因 为 TensorFlow 了 解 整个 需要 运行 的 计算 图 ， 然 而 Numpy 只 知道 某 个 时 间 点 上 
唯一 的 数学 运算 。 


TensorFlow 也 能 够 自动 地 计算 需要 优化 的 变量 的 梯度 ， 使 得 模型 有 更 好 的 表现 。 这 
是 由 于 图 是 简单 数学 表达 式 的 结合 ， 因 此 整个 图 的 梯度 可 以 用 链 式 法 则 推导 出 来 。 
TensorFlow 还 能 利用 多 核 CPU 和 GPU，Google 也 为 TensorFlow 制 造 了 称 为 
TPUs (Tensor Processing Units) 的 特殊 芯片 ， 它 比 GPU 更 快 。 
一 个 TensorFlow 图 由 下 面 几 个 部 分 组 成 ， 后 面 会 详细 描述 : 

e 占 位 符 变量 (Placeholder) 用 来 改变 图 的 输入 。 

e 模型 变量 (Model) 将 会 被 优化 ， 使 得 模型 表现 得 更 好 。 

e 模型 本 质 上 就 是 一 些 数学 函数 ， 它 根据 Placeholder 和 模型 的 输入 变量 来 计算 一 


些 输出 。 
e 一 个 cost 度 量 用 来 指导 变量 的 优化 。 
e 一 个 优化 策略 会 更 新 模型 的 变量 。 
另外 ，TensorFlow 图 也 包含 了 一 些 调试 状态 ， 比 如 用 TensorBoard 打 印 log 数 据 ， 本 
教程 不 涉及 这 些 。 


Helper-functions for creating new variables 


创建 新 变量 的 帮助 函数 
函数 用 来 根据 给 定 大 小 创建 TensorFlow 变 量 ， 并 将 它们 用 随机 值 初 始 化 。 需 注意 的 
是 在 此 时 并 未 完成 初始 化 工作 ， 仅 仅 是 在 TensorFlow 图 里 定义 它们 。 


def new_weights(shape): 
return tf.Variable(tf.truncated_normal(shape, stddev=0.05)) 


def new_biases(length): 
return tf.Variable(tf.constant(0.05, shape=[length] )) 


创建 卷 积 层 的 帮助 函数 

这 个 函数 为 TensorFlow 在 计算 图 里 创建 了 新 的 卷 积 层 。 这 里 并 没有 执行 什么 计算 
只 是 在 TensorFlow 图 里 添加 了 数学 公式 。 

假设 输入 的 是 四 维 的 张 量 ， 各 个 维度 如 下 


1. BARE 
2. 每 张 图 像 的 Y 轴 

3. 每 张 图 像 的 X 轴 

4. 每 张 图 像 的 通道 数 


输入 通道 可 能 是 彩色 通道 ， 当 输入 是 前 面 的 卷 积 层 生成 的 时 候 ， 它 也 可 能 是 滤波 通 


» 


输出 是 另外 一 个 4 通道 的 张 量 ， 如 下 : 


1. 图 像 数量 ， 与 输入 相同 

2. 每 张 图 像 的 Y 轴 。 如 果 用 到 了 2x2 的 池 化 ， 是 输入 图 像 宽 高 的 一 半 。 

3. 每 张 图 像 的 X 轴 。 同 上 。 

4. 卷 积 滤 波 生成 的 通道 数 。 

def new_conv_layer(input, # The previous layer. 
num_input_channels, # Num. channels in prev. 

layer. 


filter_size, # Width and height of eac 


卷 积 神经 网 络 


h filter. 
num_filters, # Number of filters. 
use_pooling=True): # Use 2x2 max-pooling. 
# Shape of the filter-weights for the convolution. 


OW. 


H 


This format is determined by the TensorFlow API. 


shape - [filter size, filter size, num input channels, num f 
ilters] 


# 


Create new weights aka. filters with the given shape. 


weights = new_weights(shape=shape) 


H 


Create new biases, one for each filter. 


biases = new biases(length-znum filters) 


dk db dt dt dk dk dk Gk Gt 


Create the TensorFlow operation for convolution. 

Note the strides are set to 1 in all dimensions. 

The first and last stride must always be 1, 

because the first is for the image-number and 

the last is for the input-channel. 

But e.g. strides=[1, 2, 2, 1] would mean that the filter 
is moved 2 pixels across the x- and y-axis of the image. 
The padding is set to 'SAME' which means the input image 
is padded with zeroes so the size of the output is the sam 


layer - tf.nn.conv2d(input-input, 


filter-weights, 
strides-[1, 1, 1, 1], 
padding='SAME' ) 


# Add the biases to the results of the convolution. 
# A bias-value is added to each filter-channel. 
layer += biases 


# 


Use pooling to down-sample the image resolution? 


if use_pooling: 


# 
# 
# 
# 


# This is 2x2 max-pooling, which means that we 
# consider 2x2 windows and select the largest value 
# in each window. Then we move 2 pixels to the next wind 


layer = tf.nn.max_pool(value=layer, 
ksize=[1, 2, 2, 1], 
strides=[1, 2, 2, 1], 
padding='SAME' ) 


Rectified Linear Unit (ReLU). 

It calculates max(x, ©) for each input pixel x. 

This adds some non-linearity to the formula and allows us 
to learn more complicated functions. 


layer = tf.nn.relu(layer ) 


# 
# 


Note that ReLU is normally executed before the pooling, 
but since relu(max_pool(x)) == max_pool(relu(x)) we can 
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# save 75% of the relu-operations by max-pooling first. 


# We return both the resulting layer and the filter-weights 
# because we will plot the weights later. 
return layer, weights 


转换 一 个 层 的 帮助 函数 


卷 积 层 生 成 了 4 维 的 张 量 。 我 们 会 在 卷 积 层 之 后 添加 一 个 全 连接 层 ， 因 此 我 们 需要 
将 这 个 4 维 的 张 量 转换 成 可 被 全 连接 层 使 用 的 2 维 张 量 。 


def flatten_layer(layer): 
# Get the shape of the input layer. 
layer_shape = layer.get_shape() 


# The shape of the input layer is assumed to be: 
# layer_shape == [num_images, img_height, img_width, num_cha 
nnels ] 


# The number of features is: img_height * img_width * num_ch 
annels 

# We can use a function from TensorFlow to calculate this. 

num features = layer_shape[1:4].num_elements() 


# Reshape the layer to [num_images, num_features]. 

# Note that we just set the size of the second dimension 

# to num_features and the size of the first dimension to -1 

# which means the size in that dimension is calculated 

# so the total size of the tensor is unchanged from the resh 
aping. 

layer flat = tf.reshape(layer, [-1, num features]) 


# The shape of the flattened layer is now: 
# [num images, img height * img width * num channels] 


# Return both the flattened layer and the number of features. 


return layer flat, num features 
Hg xj 
创建 一 个 全 连接 层 的 帮助 函数 


这 个 函数 为 TensorFlow 在 计算 图 中 创建 了 一 个 全 连接 层 。 这 里 也 不 进行 任何 计算 ， 
只 是 往 TensorFlow 图 中 添加 数学 公式 。 


输入 是 大 小 为 [num_images，num_inputs] 的 二 维 张 量 。 输 出 是 大 小 
为 [num_images，num_outputs] 的 2 维 张 量 。 


32 


def new_fc_layer(input, # The previous layer. 
num_inputs, # Num. inputs from prev. layer. 
num_outputs, # Num. outputs. 
use_relu=True): # Use Rectified Linear Unit (Re 
LU)? 


# Create new weights and biases. 
weights = new weights(shape-[num inputs, num outputs]) 
biases = new biases(length-znum outputs) 


# Calculate the layer as the matrix multiplication of 
4 the input and weights, and then add the bias-values. 
layer = tf.matmul(input, weights) + biases 


# Use ReLU? 
if use relu: 
layer - tf.nn.relu(layer) 


return layer 


占 位 符 (Placeholder) X € 


Placeholder 是 作为 图 的 输入 ， 每 次 我 们 运行 图 的 时 候 都 可 能 会 改变 它们 。 将 这 个 过 
程 称 为 feeding placeholder 变 量 ， 后 面 将 会 描述 它 。 


首先 我 们 为 输入 图 像 定 义 placeholder 变 量 。 这 让 我 们 可 以 改变 输入 到 TensorFlow 图 
中 的 图 像 。 这 也 是 一 个 张 量 (tensor) ， 代 表 一 个 多 维 向 量 或 矩阵 。 数 据 类 型 设置 
为 float32， 形 状 设 为 [None, img size flat] ， None 代表 tensor 可 能 保存 着 任 
意 数 量 的 图 像 ， 每 张 图 象 是 一 个 长 度 为 img size flat 的 向 量 。 


x = tf.placeholder(tf.float32, shape=[None, img_size flat], name= 


BARRA x 被 编码 为 4 维 张 量 ， 因 此 我 们 需要 将 它 的 形状 转换 

至 [num_images, img_height, img_width, num_channels] 。 注 

意 img_height == img_width == img_size ， 如 果 第 一 维 的 大 小 设 为 -1， 
num_images 的 大 小 也 会 被 自动 推导 出 来 。 转 换 运 算 如 下 : 


X image = tf.reshape(x, [-1, img_size, img_size, num channels]) 


接 下 来 我 们 为 输入 变量 x Phy EET AH Ais € 3 placeholder € € » FF 
的 形状 是 [None, num classes] ， 这 代表 着 它 保存 了 任意 数量 的 标签 ， 每 个 标 竺 
是 长 度 为 num classes 的 向 量 ， 本 例 中 长 度 为 10。 


由 


y_true = tf.placeholder(tf.float32, shape=[None, 10], name='y_tr 
ue' ) 


我 们 也 可 以 为 class- number 提 供 一 个 placeholder ' 但 这 里 用 argmax 来 计算 它 。 这 
里 只 是 TensorFlow 中 的 一 些 操 作 ， 没 有 执行 什么 运算 。 


y_true_cls = tf.argmax(y_true, dimension=1) 


卷 积 层 1 


创建 第 一 个 老 积 层 。 将 x image 当 作 输入 ， 创 建 num_filters1 个 不 同 的 滤波 
器 ， 每 个 滤波 器 的 宽 高 都 与 filter_sizel 相等 。 最 终 我 们 会 用 2x2 的 max- 
pooling 将 图 像 降 采样 ， 使 它 的 尺寸 减 半 。 


layer_convi, weights_convi = \ 
new conv layer(input-x image, 
num input channels-num channels, 
filter size-filter sizel1, 
num filters-num filtersi, 
use pooling-True) 


查 卷 积 层 输出 张 量 的 大 小 。 它 是 (? ,14, 14, 16) sé i. 数量 的 图 像 
oe ,每 张 图 像 有 14 个 像素 的 宽 和 高 ， ， 有 16 个 不 同 的 通道 ， 每 个 滤波 器 
各 有 一 个 通道 。 


layer convi 


«tf.Tensor 'Relu:0' shape=(?, 14, 14, 16) dtype=float32> 


卷 积 层 2 


创建 第 二 个 卷 积 层 ， 它 将 第 一 个 卷 积 层 的 输出 作为 输入 。 输 入 通道 的 数量 对 应 着 第 
一 个 卷 积 层 的 滤波 数 。 


layer_conv2, weights_conv2 = \ 
new conv layer (input-layer conv1, 
num input channels-num filtersi, 
filter size-filter size2, 
num filters-num filters2, 
use pooling-True) 


核对 一 下 这 个 卷 积 层 输出 张 量 的 大 小 。 它 的 大 小 是 (?，7，7，36) ,其 中 ?也 代 
表 着 任意 数量 的 图 像 ， 每 张 图 有 7 像素 的 宽 高 ， 每 个 滤波 器 有 36 个 通道 。 


layer_conv2 


<tf.Tensor 'Relu 1:0' shape=(?, 7, 7, 36) dtype=float32> 


转换 层 


这 个 卷 积 层 输 出 一 个 4 维 张 量 。 现 在 我 们 想 将 它 作为 一 个 全 连接 网 络 的 输入 ， 这 就 
需要 将 它 转换 成 2 维 张 量 。 


layer_flat, num_features = flatten_layer(layer_conv2) 


这 个 张 量 的 大 小 是 (? 1764) ， 意 味 着 共有 一 定数 量 的 图 像 ， 每 张 图 像 被 转换 
成 长 为 1764 的 向 量 。 其 中 1764=7x7xXx36。 


layer flat 


«tf.Tensor 'Reshape 1:0' shape=(?, 1764) dtype=float32> 


num features 


1764 


全 连接 层 1 


往 网 络 中 添加 一 个 全 连接 层 。 输 入 是 一 个 前 面 卷 积 得 到 的 被 转换 过 的 层 。 全 连接 层 
中 的 神经 元 或 节点 数 为 fc_size 。 我 们 可 以 用 ReLU 来 学 习 非 线性 关系 。 


layer fci = new fc layer(input-layer flat, 
num inputs-num features, 
num outputs-fc size, 
use relu-True) 


全 连接 层 的 输出 是 一 个 大 小 为 (? 128) 的 张 量 ，? 代表 着 一 定数 量 的 图 像 ， 并 
E fc size == 128^ 


layer fci 


«tf.Tensor 'Relu 2:0' shape=(?, 128) dtype=float32> 


全 连接 层 2 


添加 另外 一 个 全 连接 层 ， 它 的 输出 是 一 个 长 度 为 10 的 向 量 ， 它 确定 了 输入 图 是 属于 
哪个 类 别 。 这 层 并 没有 用 到 ReLU 。 


layer fc2 = new fc layer(input-layer fc1, 
num inputs-fc size, 
num outputs-num classes, 
use relu-False) 


layer fc2 


«tf.Tensor 'add 3:0' shape=(?, 10) dtype=float32> 


预测 类 别 
第 二 个 全 连接 层 估算 了 输入 图 有 多 大 的 可 能 属于 10 个 类 别 中 的 其 中 一 个 。 然 而 ， 这 
是 很 粗略 的 估计 并 且 很 难 解释 ， 因 为 数值 可 能 很 小 或 很 大 ， 因 此 我 们 会 对 它们 做 虹 


一 化 ， 将 每 个 元 素 限制 在 0 到 1 之 间 ， 并 且 相 加 为 1。 这 用 一 个 称 为 softmax 的 函数 来 
计算 的 ， 结 果 保 存在 y pred T» 


y_pred = tf.nn.softmax(layer_fc2) 
类 别 数字 是 最 大 元 素 的 索引 。 


y pred cls = tf.argmax(y pred, dimension=1 ) 


优化 损失 函数 


为 了 使 模型 更 好 地 对 输入 图 像 进 行 分 类 ， 我 们 必须 改变 weights 和 biases € 
量 。 首 先 我 们 需要 对 比 模型 y pred 的 预测 输出 和 期 望 输出 的 y true ， 来 了 解 
目前 模型 的 性 能 如 何 。 


交 又 (cross- entropy ) 是 在 eee MERE LE KIN 7] SE fa 4) 3E 
续 函 数 ， CURAR FA 65 9 n EA GE WAT SEE S m EMFTA RAY Kitna 
的 就 是 通 


TensorFlow# —* A E 89 HE A SUK 89 RR o 3X A HAA Ett T softmax > Pp 
我 们 要 用 layer fc2 的 输出 而 非 直接 用 y pred ,因为 y pred 上 已 经 计算 了 
softmax ° 


cross entropy = tf.nn.softmax cross entropy with logits(logits-1 
ayer fc2, 

labels=y 
_true) 


我 们 为 每 个 图 像 分 类 计算 了 交 又 焙 ， 所 以 有 一 个 当前 模型 在 每 张 图 上 表现 的 度量 。 
但 是 为 了 用 交叉 蚁 来 指导 模型 变量 的 优化 ， 我 们 需要 一 个 额外 的 标量 值 ， 因 此 简单 
Ae] F] PT Ay AR KK SHE 24 fo 


cost = tf.reduce_mean(cross_entropy) 


RAG Zr ik 


既然 我 们 有 一 个 需要 被 最 小 化 的 损失 度量 ， 接 着 就 可 以 建立 优化 一 个 优化 器 。 这 个 
例子 中 ， 我 们 使 用 的 是 梯度 下 降 的 变 体 Adamoptimizer 。 


优化 过 程 并 不 是 在 这 里 执行 。 实 际 上 ， 还 没 计 算 任 何 东 西 ， 我 们 只 是 往 TensorFlow 
图 中 添加 了 优化 器 ， 以 便 之 后 的 操作 。 


optimizer = tf.train.AdamOptimizer(learning rate-ie-4).minimize( 
cost) 


性 能 度量 
我 们 需要 另外 一 些 性 能 度量 ， 来 向 用 户 展示 这 个 过 程 。 
这 是 一 个 布尔 值 向 量 ， 代 表 预 测 类 型 是 否 等 于 每 张 图 片 的 丨 实 类 型 。 


correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


上 面 的 计算 先 将 :` 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 
成 1， 然 后 计算 这 些 值 的 平均 数 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


运行 TensorFlow 


创建 TensorFlow 会 话 (session) 


一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 图 。 


session = tf.Session() 


初始 化 变量 
我 们 需要 在 开始 优化 weights 和 biases 变 量 之 前 对 它们 进行 初始 化 。 


session.run(tf.global_variables_initializer()) 


用 来 优化 迭代 的 帮助 函数 


在 训练 集中 有 50,000 张 图 。 用 这 些 图 像 计 算 英 型 的 梯度 会 花 很 多 时 间 。 因 此 我 们 利 
用 随机 梯度 下 降 的 方法 ， 它 在 优化 器 的 每 次 了 一 小 部 分 的 图 像 。 


果 内 存 耗 尽 导 致电 脑 死机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 数量 ， 但 同时 可 能 还 
EAÑ o 


train batch size = 64 


函数 执行 了 多 次 的 优化 迭代 来 逐步 地 提升 网 络 层 的 变量 。 在 每 次 迭代 中 ， 从 训练 集 
ee ， 然 后 TensorFlow 用 这 些 训练 样本 来 执行 优化 器 。 每 100 次 和 挝 
代 会 打印 出 相关 信息 。 


# Counter for total number of iterations performed so far. 
total_iterations = 0 


def optimize(num_iterations): 

# Ensure we update the global variable rather than a local c 
opy. 

global total_iterations 


# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(total_iterations, 
total_iterations + num_iterations): 


# Get a batch of training examples. 
# x_batch now holds a batch of images and 





# y_true_batch are the true labels for those images. 
x_batch, y_true_batch = data.train.next_batch(train_batc 
h_size) 


# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed dict train = {x: x_batch, 

y_true: y_true_batch} 


# Run the optimizer using this batch of training data. 
# TensorFlow assigns the variables in feed_dict_train 
# to the placeholder variables and then runs the optimiz 


er. 
session.run(optimizer, feed_dict=feed_dict_train) 
# Print status every 100 iterations. 
if i% 100 == 
# Calculate the accuracy on the training-set. 
acc = session.run(accuracy, feed_dict=feed_dict_trai 
n) 


# Message for printing. 
msg = "Optimization Iteration: {0:>6}, Training Accu 
racy: 11:6 .1%)” 


# Print it. 
print(msg.format(i + 1, acc)) 


# Update the total number of iterations performed. 
total_iterations += num_iterations 


# Ending time. 
end time = time.time() 


# Difference between start and end-times. 
time_dif = end_time - start_time 


# Print the time-usage. 
print("Time usage: " + str(timedelta(seconds=int(round(time_ 


dif))))) 


用 来 绘制 错误 样本 的 帮助 函数 
函数 用 来 绘制 测试 集中 被 误 分 类 的 样本 。 
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卷 积 神经 网 络 


def plot example errors(cls pred, correct): 
# This function is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# correct is a boolean array whether the predicted class 
# is equal to the true class for each image in the test-set. 


# Negate the boolean array. 
incorrect - (correct -- False) 


# Get the images from the test-set that have been 
# incorrectly classified. 
images = data.test.images[incorrect ] 


# Get the predicted classes for those images. 
cls_pred = cls_pred[incorrect ] 


# Get the true classes for those images. 
cls true = data.test.cls[incorrect ] 


# Plot the first 9 images. 

plot_images(images=images[0:9], 
cls_true=cls_true[0:9], 
cls_pred=cls_pred[0:9]) 


绘制 混淆 (confusion) 4ETE 85 3$ By AK 


def plot_confusion_matrix(cls_pred): 
# This is called from print_test_accuracy() below. 


# cls_pred is an array of the predicted class-number for 
# all images in the test-set. 


# Get the true classifications for the test-set. 
cls_true = data.test.cls 


# Get the confusion matrix using sklearn. 
cm = confusion_matrix(y_true=cls_true, 
y_pred=cls_pred) 


# Print the confusion matrix as text. 
print(cm) 


# Plot the confusion matrix as an image. 
plt.matshow(cm) 


# Make various adjustments to the plot. 
plt.colorbar() 

tick_marks = np.arange(num_classes) 
plt.xticks(tick_marks, range(num_classes)) 
plt.yticks(tick_marks, range(num_classes)) 
plt.xlabel( 'Predicted') 

plt.ylabel('True') 


# Ensure the plot is shown correctly with multiple plots 


4 in a single Notebook cell. 
plt.show() 


展示 性 能 的 帮助 函数 

函数 用 来 打印 测试 集 上 的 分 类 准确 度 。 

为 测试 集 上 的 所 有 图 片 计算 分 类 会 花费 一 段 时 间 ， 因 此 我 们 直接 用 这 个 函数 来 调用 
上 面 的 结果 ， 这 样 就 不 用 每 次 都 重新 计算 了 。 

这 个 函数 可 能 会 占用 很 多 电脑 内 存 ， 这 也 是 为 什么 将 测试 集 分 成 更 小 的 几 个 部 分 。 
如 果 你 的 电脑 内 存 比 较 小 或 死机 了 ， 就 要 试 着 降低 batch-size 。 


# Split the test-set into smaller batches of this size. 
test_batch_size = 256 


def print_test_accuracy(show_example_errors=False, 
show_confusion_matrix=False): 


# Number of images in the test-set. 
num_test = len(data.test.images) 


# Allocate an array for the predicted classes which 
# will be calculated in batches and filled into this array. 
cls_pred = np.zeros(shape=num_test, dtype=np.int) 


# Now calculate the predicted classes for the batches. 
# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


Se 
# The starting index for the next batch is denoted i. 
i=0 
while i < num_test: 
# The ending index for the next batch is denoted j. 
j = min(i + test batch size, num test) 
4 Get the images from the test-set between index i and j. 
images - data.test.images[i:j, :] 
# Get the associated labels. 
labels - data.test.labels[i:j, :] 
# Create a feed-dict with these images and labels. 
feed dict - (x: images, 
y true: labels) 
# Calculate the predicted class using TensorFlow. 
cls pred[i:j] = session.run(y. pred cls, feed dict-feed d 
ict) 
# Set the start-index for the next batch to the 
# end-index of the current batch. 
i- j 
# Convenience variable for the true class-numbers of the tes 
toset: 
cls_true = data.test.cls 
# Create a boolean array whether each image is correctly cla 
ssified. 
correct = (cls_true == cls_pred) 
# Calculate the number of correctly classified images. 
# When summing a boolean array, False means 0 and True means 
di. 
correct sum = correct.sum() 
# Classification accuracy is the number of correctly classif 
ied 
# images divided by the total number of images in the test-s 
eier 


acc = float(correct_sum) / num_test 
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# Print the accuracy. 
msg = "Accuracy on Test-Set: {0:.1%} ((1) / {2})" 
print(msg.format(acc, correct_sum, num_test)) 
# Plot some examples of mis-classifications, if desired. 
if show_example_errors: 
print("Example errors:") 
plot_example_errors(cls_pred=cls_pred, correct=correct) 
# Plot the confusion matrix, if desired. 
if show_confusion_matrix: 


print("Confusion Matrix:") 
plot_confusion_matrix(cls_pred=cls_pred) 


EE 
优化 之 前 的 性 能 


测试 集 上 的 准确 度 很 低 ， 这 是 由 于 模型 只 做 了 初始 化 ， 并 没 做 任何 优化 ， 所 以 它 只 
是 对 图 像 做 随机 分 类 。 


print_test_accuracy() 


Accuracy on Test-Set: 10.9% (1093 / 10000) 


1 次 和 迭代 后 的 性 能 
做 了 一 次 优化 后 ， 此 时 优化 器 的 学 习 率 很 低 ， 性 能 其 实 并 没有 多 大 提升 。 


optimize(num_iterations=1) 


Optimization Iteration: 1, Training Accuracy: 6.2% 
Time usage: 0:00:00 


print test accuracy() 


Accuracy on Test-Set: 13.0% (1296 / 10000) 


100 次 和 迭代 优化 后 的 性 能 

100 次 优化 迭代 之 后 ， 模 型 显著 地 提升 了 分 类 的 准确 度 。 
optimize(num_iterations=99) # We already performed 1 iteration a 
bove. 
Time usage: 0:00:00 


print_test_accuracy(show_example_errors=True) 


Accuracy on Test-Set: 66.6% (6656 / 10000) 
Example errors: 


True: 2, Pred: 1 True: 5, Pred: 4 True: 6, Pred: 0 
True: 5, Pred: 3 True: 3, Pred: 6 True: 6, Pred: 4 
True: 5, Pred: 6 True: 7, Pred: 9 True: 4, Pred: 0 


1000 次 优化 和 迭代 后 的 性 能 
1000 次 优化 迭代 之 后 ， 模 型 在 测试 集 上 的 准确 度 超过 了 90% © 


optimize(num_iterations=900) # We performed 100 iterations above. 
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print_test_accuracy(show_example_errors=True) 


Accuracy on Test-Set: 93.1% (9308 / 10000) 
Example errors: 
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True: 4, Pred: 6 
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True: 7, Pred: 9 
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True: 6, Pred: 5 


True: 9, Pred: 4 


True: 5, Pred: 4 


True: 8, Pred: 7 


10,000 次 优化 迭代 后 的 性 能 


经 过 10,000 次 优化 迭代 后 ， 测 试 集 上 的 分 类 准确 率 高 达 999% © 


optimize(num_iterations=9000) # We performed 1000 iterations abo 
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print_test_accuracy(show_example_errors=True, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 98.8% (9880 / 10000) 
Example errors: 
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权重 和 层 的 可 视 化 


为 了 理解 为 什么 卷 积 神经 网 络 可 以 识别 手写 数字 ， 我 们 将 会 对 卷 积 滤波 和 输出 图 像 
进行 可 视 化 。 


绘制 卷 积 权重 的 帮助 函数 


卷 积 神经 网 络 


def plot_conv_weights(weights, input channel-0): 
# Assume weights are TensorFlow ops for 4-dim variables 
# e.g. weights convi or weights conv2. 


# Retrieve the values of the weight-variables from TensorFlo 
# A feed-dict is not necessary because nothing is calculated. 
w = session.run(weights) 

Get the lowest and highest values for the weights. 

This is used to correct the colour intensity across 

the images so they can be compared with each other. 


| min = np.min(w) 
max - np.max(w) 


三 m HHH 


# Number of filters used in the conv. layer. 
num filters - w.shape[3] 


# Number of grids to plot. 
# Rounded-up, square-root of the number of filters. 
num grids - math.ceil(math.sqrt(num filters)) 


# Create figure with a grid of sub-plots. 
fig, axes - plt.subplots(num grids, num grids) 


# Plot all the filter-weights. 
for i, ax in enumerate(axes.flat): 
4 Only plot the valid filter-weights. 
if i«num filters: 
# Get the weights for the i'th filter of the input c 
hannel. 
# See new conv layer() for details on the format 
# of this 4-dim tensor. 
img - w[:, :, input channel, i] 


# Plot image. 


ax.imshow(img, vmin-w min, vmax-w max, 
interpolation-'nearest', cmap='seismic' ) 


# Remove ticks from the plot. 

ax.set_xticks([]) 

ax.set_yticks([]) 
# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show() 


Es==== = 
绘制 着 积 层 输出 的 帮助 函数 
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卷 积 神经 网 络 


def plot_conv_layer(layer, image): 
# Assume layer is a TensorFlow op that outputs a 4-dim tensor 


which is the output of a convolutional layer, 
e.g. layer convi or layer conv2. 


FH 


# Create a feed-dict containing just one image. 

# Note that we don't need to feed y_true because it is 
# not used in this calculation. 

feed_dict = {x: [image]} 


# Calculate and retrieve the output values of the layer 
# when inputting that image. 
values = session.run(layer, feed_dict=feed_dict) 


# Number of filters used in the conv. layer. 
num_filters = values.shape[3] 


# Number of grids to plot. 
# Rounded-up, square-root of the number of filters. 
num_grids = math.ceil(math.sqrt(num_filters)) 


# Create figure with a grid of sub-plots. 
fig, axes = plt.subplots(num_grids, num_grids) 


# Plot the output images of all the filters. 
for i, ax in enumerate(axes.flat): 
# Only plot the images for valid filters. 
if i<num_filters: 
# Get the output image of using the i'th filter. 
# See new_conv_layer() for details on the format 
# of this 4-dim tensor. 
img = values[®, :, :, i] 


# Plot image. 


ax.imshow(img, interpolation='nearest', cmap='binary' 


# Remove ticks from the plot. 

ax.set_xticks([]) 

ax.set_yticks([]) 
# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show() 
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输入 图 像 
绘制 图 像 的 帮助 函数 
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def plot_image(image): 
plt.imshow(image.reshape(img_shape), 
interpolation='nearest', 
cmap='binary') 


plt.show( ) 


如 下 所 示 ， 绘 制 一 张 测试 集中 的 图 像 。 


imagei = data.test.images[9] 
plot image(image1) 
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绘制 测试 集 里 的 另 一 张 图 像 。 


image2 = data.test.images[13] 
plot image(image2) 





卷 积 层 1 
现在 绘制 第 一 个 卷 积 层 的 滤波 权重 。 
其 中 正 值 权重 是 红色 的 ， 负 值 为 蓝 色 。 


plot conv weights(weights-weights convi) 





将 这 些 卷 积 滤 波 添加 到 第 一 张 输入 图 像 ， 得 到 以 下 输出 ， 它 们 也 作为 第 二 个 卷 积 层 


的 输入 。 注 意 这 些 图 像 被 降 采 样 到 14 x 14 像 素 ， 即 原始 输入 图 分 辩 率 的 一 半 。 


plot conv layer(layer-layer convi, image-image1) 
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下 面 是 将 卷 积 滤波 添加 到 第 二 张 
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plot conv layer(layer-layer convi, image=image2 ) 
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从 这 些 图 像 很 难看 出 卷 积 滤波 的 作用 是 什么 。 显 然 ， 它 们 生成 了 输入 图 像 的 一 些 变 
体 ， 就 像 光线 从 不 同 角度 打 到 图 像 上 并 产生 阴影 一 样 。 


卷 积 层 2 
现在 绘制 第 二 个 卷 积 层 的 滤波 权重 。 
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第 一 个 卷 积 层 有 16 个 输出 通道 ， 代表 着 第 二 个 卷 基 层 有 16 个 输入 。 个 卷 积 层 的 
每 个 输入 通道 也 有 一 些 权 重 滤波 。 我 们 先 绘制 第 一 个 通道 Ee ig 


同样 的 ， 正 值 是 红色 ， 负 值 是 蓝 色 。 


plot conv weights(weights-weights conv2, input_channel=0) 
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第 二 个 SA 只 层 共 有 16 个 输入 通道 ， 我 们 可 以 同样 地 画 出 其 他 图 像 。 这 里 我 们 画 出 第 
二 个 通道 的 图 像 。 


plot_conv_weights(weights=weights_conv2, input_channel=1) 
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是 高 维度 的 ， 很 难 理解 它们 是 如 何 应 用 的 。 


给 第 一 个 卷 积 层 的 输出 加 上 这 些 滤波 ， 得 到 下 面 的 图 像 。 
这 些 图 像 被 降 采 样 至 7 x7 的 像素 ， 即 上 一 个 卷 积 层 输出 的 一 半 。 


plot_conv_layer(layer=layer_conv2, image-image1) 
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plot_conv_layer(layer=layer_conv2, image=image2 ) 
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从 这 些 图 像 来 看 ， 似 乎 第 二 个 卷 积 层 会 检测 输入 图 像 中 的 线段 和 模式 ， 这 对 输入 图 
中 的 局 部 变化 不 那么 敏感 。 


X AlTensorFlow = 


现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# session.close() 
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我 们 看 到 卷 积 神 经 网 络 在 识别 手写 数字 上 的 表现 要 比 教程 #01 中 简单 线性 模型 要 好 
得 多 。 卷 积 神经 网 络 可 能 达到 99% 的 分 类 准确 率 ， 如 果 你 做 一 些 调整 ， 还 可 能 表现 
得 更 好 ， 而 简单 线性 模型 只 有 91% 的 正确 率 。 


然而 ， 卷 积 神经 网 络 实现 起 来 更 复杂 ， 并 且 光 看 权重 滤波 也 不 好 理解 为 什么 它 能 奏 
效 或 者 失败 。 


因此 我 们 需要 一 个 更 简单 的 实现 卷 积 神经 网 络 的 方式 ， 同 时 也 要 寻找 一 种 更 好 的 方 
法 来 对 它们 内 部 工作 原理 进行 可 视 化 。 


练习 

下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 

在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e. 如 果 你 不 改变 任何 参数 ， 多 次 运行 Notebook， 会 得 到 完成 一 样 的 结果 吗 ? 随机 
性 的 来 源 是 什么 ? 


o 再 进行 10,000 次 优化 。 结 果 有 变 好 么 ? 
e 改变 优化 器 的 学 习 率 。 


e 改变 层次 的 属性 ， 比 如 卷 积 滤波 器 数量 、 滤 波 器 的 大 小 、 全 连接 层 中 的 神经 元 
数量 等 等 。 


e 在 全 连接 层 之 后 添加 一 个 drop-out 层 。 在 计算 分 类 准确 率 的 时 候 ，drop-out 层 
可 能 为 0， 因 此 你 需要 一 个 placeholder 变 量 。 


e 改变 ReLU 和 max-pooling 的 顺序 。 它 的 计算 结果 相同 么 ?最 快 的 计算 方法 是 什 
么 ?节省 了 多 少 计算 量 ? 这 也 适用 于 Sigmoid-function 和 average-pooling 吗 ? 


e. 添加 一 个 或 多 个 卷 积 层 和 全 连接 层 。 这 对 性 能 有 帮助 吗 ? 
e 能 得 到 良好 结果 的 最 小 可 能 配置 是 什么 ? 
。 试 着 在 最 后 一 个 全 连接 层 中 使 用 ReLU。 性 能 有 变化 吗 ? 为 什么 ? 


e 卷 积 层 里 不 用 pooling。 这 对 分 类 准确 率 和 训练 时 间 有 影响 吗 ? 
e 在 卷 积 层 里 用 2x2 的 stride 代 替 max-pooling? 有 什么 变化 吗 ? 
. 不 看 源码 ， 自 己 重 写 程序 。 

e 向 朋友 解释 程序 如 何 工作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #03 


PrettyTensor 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist/Github 


简介 
之 前 的 教程 演示 了 如 何在 TensorFlow 中 实现 一 个 卷 积 神经 网 络 ， 这 需要 了 解 一 些 


TensorFlow 工 作 的 底层 原理 。 它 有 点 复杂 ， 实 现 起 来 还 容易 犯错 。 


这 篇 教程 为 我 们 说 明了 如 何 使 用 TensorFlow 的 一 个 附加 包 PrettyTensor， 它 也 是 
Google 开 发 的 。PrettyTensor 提 供 了 在 TensorFlow 中 创建 神经 网 络 的 更 简单 的 方 

法 ， 让 我 们 可 以 关注 自己 想 要 实现 的 想法 ， 而 不 用 过 多 担心 底层 的 实现 细节 。 这 也 
让 代码 更 短 、 更 容易 阅读 和 修改 。 


除了 用 PrettyTensor 构 造 图 之 外 ， 这 篇 教程 的 大 部 分 代码 和 教程 #02 中 的 一 样 ， 当 
然 还 有 一 些 细微 的 变化 。 


这 篇 教程 是 基于 教程 #2 之 上 的 ， 如 果 你 是 TensorFlow 新 手 的 话 ， 推 荐 先 学 完 上 一 
份 教 程 。 你 需要 熟悉 基本 的 线性 代数 、Python 和 Jupyter Notebook 编 辑 器 。 
流程 图 


下 面 的 图 表 直 接 展示 了 之 后 实现 的 卷 积 神经 网 络 中 数据 的 传递 。 关 于 卷 积 的 详细 描 
述 请 看 上 一 篇 教程 。 


from IPython.display import Image 
Image('images/02 network flowchart.png') 


Convolutional Layer 2 Fully-Connected 
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输入 图 像 在 第 一 层 卷 基层 中 用 权重 过 滤器 处 理 。 结 果 在 16 张 新 图 里 ， 每 个 代表 了 卷 
只 层 里 一 个 过 滤器 (的 处 理 结 果 ) 。 图 像 也 经 过 降 采 样 ， 因 此 图 像 分 辩 率 从 28x28 
减少 到 14Xx14。 


这 16 张 小 图 在 第 二 个 卷 积 层 中 处 理 。 这 16 个 通道 都 需要 一 个 权重 过 滤 ， 这 层 的 输出 
的 每 个 通道 也 各 需要 一 个 权重 过 滤 。 总 共有 36 个 输出 ， 所 以 在 第 二 个 卷 积 层 有 16 x 
36 = 576 个 滤波 器 。 输 出 图 再 一 次 降 采 样 到 7x7 个 像素 。 


第 二 个 卷 积 层 .._—n nn. 2. 0002 
1764 的 向 量 中 去 ， 它 作为 一 个 有 128 个 神经 元 (或 元 素 ) 的 全 连接 网 络 的 输入 。 这 
些 又 输入 到 另 一 个 有 10 个 神经 元 的 全 连接 层 中 ， nn NEUES 
定 图 像 的 类 别 ， 也 即 图 像 上 的 数字 。 


卷 积 滤波 一 开始 是 随机 挑选 的 ， 因 此 分 类 也 是 随机 完成 的 。 根据 交 又 (cross- 
entropy) 来 测量 输入 图 预测 值 和 站 实 类 别 问 的 错误 。 然 后 优化 器 用 链 式 法 则 自 自动 地 
将 这 个 误差 传 在 卷 积 网 络 中 传递 ， 更 新 滤波 权重 来 提升 分 类 质量 。 这 个 过 程 迭 代 了 
几 千 次 ， 直 到 分 类 误差 足够 低 。 


me onem 图 像 是 一 个 优化 的 结果 ， 和 你 执行 这 些 代码 所 看 到 的 可 
能 会 


注意 ， 这 些 在 TensorFlow 上 的 计算 是 在 一 部 分 图 像 上 执行 ， 而 非 单独 的 一 张 图 ， 这 
使 得 计算 更 有 效 。 也 意味 着 在 TensorFlow 上 实现 时 ， 这 个 流程 图 实际 上 会 有 更 多 的 
数据 维度 。 


导入 


%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 
import time 

from datetime import timedelta 

import math 


# We also need PrettyTensor. 
import prettytensor as pt 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.12.0-rc0' 


PrettyTensor 版 本 : 


pt. version . 


Lom d 


载 入 数据 
MNIST 数 据 集 大 约 12MB， 如 果 没 在 给 定 路 径 中 找到 就 会 自动 下 载 。 


from tensorflow.examples.tutorials.mnist import input_data 
data = input_data.read_data_sets('data/MNIST/', one_hot=True) 


Extracting data/MNIST/train-images-idx3-ubyte.gz 
Extracting data/MNIST/train-labels-idx1-ubyte.gz 
Extracting data/MNIST/ti10k-images-idx3-ubyte.gz 
Extracting data/MNIST/t10k-labels-idx1-ubyte.gz 


现在 已 经 载 入 了 MNIST 数 据 集 ， 它 由 70,000 张 图 像 和 对 应 的 标签 (比如 图 像 的 类 
别 ) 组 成 。 数 据 集 分 成 三 份 互相 独立 的 子 集 。 我 们 在 教程 中 只 用 训练 集 和 测试 集 。 


print( Size of :") 

print("- Training-set:\t\t{}".format(len(data.train.labels))) 
print("- Test-set:\t\t{}".format(len(data.test.labels))) 
print("- Validation-set:\t{}".format(len(data.validation.labels) 
)) 


Size of: 

- Training-set: 55000 
- Test-set: 10000 

- Validation-set: 5000 


类 型 标签 使 用 One-Hot 编 码 ， 这 意外 每 个 标签 是 长 为 10 的 向 量 ， 除 了 一 个 元 素 之 
外 ， 其 他 的 都 为 零 。 这 个 元 素 的 索引 就 是 类 别 的 数字 ， 即 相应 图 片 中 画 的 数字 。 我 
们 也 需要 测试 数据 集 类 别 数字 的 整 型 值 ， 用 下 面 的 方法 来 计算 。 


data.test.cls = np.argmax(data.test.labels, axis=1) 





数据 维度 


在 下 面 的 源码 中 ， 有 很 多 地 方 用 到 了 数据 维度 。 它 们 只 在 一 个 地 方 定义 ， 因 此 我 们 
可 以 在 代码 中 使 用 这 些 数字 而 不 是 直接 写 数字 。 


# We know that MNIST images are 28 pixels in each dimension. 
img_size = 28 


# Images are stored in one-dimensional arrays of this length. 
img size flat = img size * img size 


# Tuple with height and width of images used to reshape arrays. 
img shape - (img size, img size) 


# Number of colour channels for the images: 1 channel for gray-s 
cale. 
num channels = 1 


4 Number of classes, one class for each of 10 digits. 
num classes - 10 


用 来 绘制 图 片 的 帮助 函数 


这 个 函数 用 来 在 3X3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图 像 下 面 写 出 真实 类 别 和 预测 
类 别 o 


Pretty lensol 


def plot images(images, cls true, cls_pred=None): 
assert len(images) -- len(cls true) -- 


# Create figure with 3x3 sub-plots. 
fig, axes - plt.subplots(3, 3) 
fig.subplots_adjust(hspace=0.3, wspace=0.3) 


for i, ax in enumerate(axes.flat): 
# Plot image. 
ax.imshow(images[i].reshape(img_shape), cmap='binary' ) 


# Show true and predicted classes. 
if cls_pred is None: 
xlabel = "True: (0j".format(cls true[i]) 
else: 
Xlabel = "True: (0), Pred: (1)".format(cls true[i], 
cls_pred[i]) 


# Show the classes as the label on the x-axis. 
ax.set_xlabel(xlabel) 


# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show( ) 


绘制 几 张 图 像 来 看 看 数据 是 否 正确 
# Get the first images from the test-set. 
images = data.test.images[0:9] 


# Get the true classes for those images. 
cls_true = data.test.cls[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true) 


True: 7 True: 2 True: 1 
True: 0 True: 4 True: 1 
q4 A © 
True: 4 True: 9 True: 5 

TensorFlow X 


TensorFlow 的 全 部 目的 就 是 使 用 一 个 称 之 为 计算 图 (computational graph) 的 东 
西 ， 它 会 比 直接 在 Python 中 进行 相同 计算 量 要 高 效 得 多 。TensorFlow 比 Numpy 更 高 
效 ， 因 为 TensorFlow 了 解 整个 需要 运行 的 计算 图 ， 然 而 Numpy 只 知道 某 个 时 间 点 上 
唯一 的 数学 运算 。 


TensorFlow 也 能 够 自动 地 计算 需要 优化 的 变量 的 梯度 ， 使 得 模型 有 更 好 的 表现 。 这 
是 由 于 图 是 简单 数学 表达 式 的 结合 ， 因 此 整个 图 的 梯度 可 以 用 链 式 法 则 推导 出 来 。 


TensorFlow 还 能 利用 多 核 CPU 和 GPU ，Google 也 为 TensorFlow 制 造 了 称 为 
TPUs (Tensor Processing Units) 的 特殊 芯片 ， 它 比 GPU 更 快 。 


一 个 TensorFlow 图 由 下 面 几 个 部 分 组 成 ， 后 面 会 详细 描述 : 


e hiit ZE (Placeholder) 用 来 改变 图 的 输入 。 

o BAFE (Model) 将 会 被 优化 ， 使 得 模型 表现 得 更 好 。 

。 模型 本 质 上 就 是 一 些 数学 函数 ， 它 根据 Placeholder 和 模型 的 输入 变量 来 计算 一 
些 输 出 。 

e 一 个 cost 度 量 用 来 指导 变量 的 优化 。 

e 一 个 优化 策略 会 更 新 模型 的 变量 。 


另外 ，TensorFlow 图 也 包含 了 一 些 调试 状态 ， 比 如 用 TensorBoard 打 印 log 数 据 ， 本 
教程 不 涉及 这 些 。 
占 位 符 (Placeholder) € € 


Placeholder 是 作为 图 的 输入 ， 我 们 每 次 运行 图 的 时 候 都 可 能 改变 它们 。 将 这 个 过 程 
称 为 feeding placeholder 变 量 ， 后 面 将 会 描述 这 个 。 


sr 入 图 像 定 义 placeholder 变 量 。 这 让 我 们 可 以 改变 输入 到 TensorFlow 图 
中 的 图 像 。 这 也 是 一 个 张 量 (tensor) ， 代 表 一 个 多 维 向 量 或 矩阵 。 数 据 类 型 设置 
为 EE GER > 形状 设 为 [None, img size flat] > None 代表 tensor 可 能 保存 
着 任意 数量 的 图 像 ， 每 张 图 象 是 一 个 长 度 为 img size flat 的 向 量 。 


x = tf.placeholder(tf.float32, shape=[None, img size flat], names 


«| ER) jn 





卷 积 层 希 望 x 被 编码 为 4 维 张 量 ， 因 此 我 们 需要 将 它 的 形状 转换 

至 [num images, img_height, img_width, num_channels] 。 注 
意 img height == img width == img size ， 如 果 第 一 维 的 大 小 设 
为 -1， num images 的 大 小 也 会 被 自动 推导 出 来 。 转 换 运算 如 下 : 


x image = tf.reshape(x, [-1, img size, img size, num channels]) 


接 下 来 我 们 为 输入 变量 x PHARMA  83 RS: 4 € 3 placeholder € € » FE 
的 形状 是 [None，num_classes] ， 这 代表 着 它 保 存 了 任意 数量 的 标签 ， 每 个 标签 
AREA num classes 的 向 量 ， 本 例 中 长 度 为 10。 


和 


y_true = tf.placeholder(tf.float32, shape=[None, 10], name='y_tr 
ue' ) 


我 们 也 可 以 为 class-number 提 供 一 个 placeholder， 但 这 里 用 argmax 来 计算 它 。 这 
里 只 是 TensorFlow 中 的 一 些 操 作 ， 没 有 执行 什么 运算 


y_true_cls = tf.argmax(y_true, dimension=1) 


TensorFlow 实现 


这 一 节 显 示 了 教程 #02 中 直接 用 TensorFlow 实 现 卷 积 神经 网 络 的 源 代码 。 这 份 
Notebook 中 并 没有 直接 用 到 这 些 代 码 ， 只 是 为 了 方便 和 下 面 PrettyTensor 的 实现 进 
行 比较 。 


这 里 要 注意 的 是 有 多 少 代 码 量 以 及 TensorFlow 保 存 数 据 、 进 行 运算 的 底层 细节 。 即 
使 在 很 小 的 神经 网 络 中 也 容易 犯错 。 
帮助 函数 


在 直接 用 TensorFlow 实 现时 ， 我 们 创建 一 些 在 构造 图 时 常用 到 的 帮助 函数 。 
这 两 个 函数 在 TensorFlow 图 中 创建 新 的 变量 并 用 随机 值 初始 化 。 


Pretty Tensor 


def new_weights(shape): 
return tf.Variable(tf.truncated_normal(shape, stddev=0.05)) 


def new_biases(length): 
return tf.Variable(tf.constant(0.05, shape=[length])) 


下 面 的 帮助 函数 创建 一 个 新 的 卷 积 网 络 。 输 入 和 输出 是 4 维 的 张 量 (A-rank 
tensors) 。 注 意 TensorFlow API 的 底层 细节 ， 比 如 权重 变量 的 大 小 。 这 里 很 容易 犯 
错 ， 可 能 会 导致 奇怪 的 错误 信息 ， 并 且 很 难 调试 。 


def new_conv_layer(input, # The previous layer. 

num_input_channels, # Num. channels in prev. 
layer. 

filter size; # Width and height of Til 
tens: 

num_filters, # Number of filters. 


use_pooling=True): # Use 2x2 max-pooling. 


# Shape of the filter-weights for the convolution. 

# This format is determined by the TensorFlow API. 

shape = [filter_size, filter_size, num_input_channels, num_f 
ilters] 


# Create new weights aka. filters with the given shape. 
weights = new_weights(shape=shape) 


# Create new biases, one for each filter. 
biases = new_biases(length=num_filters) 


Create the TensorFlow operation for convolution. 

Note the strides are set to 1 in all dimensions. 

The first and last stride must always be 1, 

because the first is for the image-number and 

the last is for the input-channel. 

But e.g. strides=[1, 2, 2, 1] would mean that the filter 
is moved 2 pixels across the x- and y-axis of the image. 
The padding is set to 'SAME' which means the input image 
is padded with zeroes so the size of the output is the sam 


dk db dk dt dt db dk dk Gk 


layer - tf.nn.conv2d(input-input, 
filter-weights, 
strides-[1, 1, 1, 1], 
padding='SAME' ) 


# Add the biases to the results of the convolution. 
# A bias-value is added to each filter-channel. 
layer += biases 


# Use pooling to down-sample the image resolution? 
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OW. 


if use pooling: 
4 This is 2x2 max-pooling, which means that we 
4 consider 2x2 windows and select the largest value 
# in each window. Then we move 2 pixels to the next wind 


layer - tf.nn.max pool(value-layer, 
ksize-[1, 2, 2, 1], 
strides=[1, 2, 2. 1], 
padding='SAME' ) 


# Rectified Linear Unit (ReLU). 

# It calculates max(x, ©) for each input pixel x. 

# This adds some non-linearity to the formula and allows us 
# to learn more complicated functions. 

layer = tf.nn.relu(layer ) 


# Note that ReLU is normally executed before the pooling, 
# but since relu(max_pool(x)) == max_pool(relu(x)) we can 
# save 75% of the relu-operations by max-pooling first. 


# We return both the resulting layer and the filter-weights 
# because we will plot the weights later. 
return layer, weights 


下 面 的 帮助 函数 将 一 个 4 维 张 量 转换 到 2 维 ， 因 此 我 们 可 以 在 卷 积 层 之 后 添加 一 个 全 
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def 


nnel 


anne 


apin 


flatten_layer(layer): 
# Get the shape of the input layer. 
layer_shape = layer.get_shape() 


# The shape of the input layer is assumed to be: 
# layer shape == [num images, img height, img width, num cha 


s] 


# The number of features is: img height * img width * num ch 
ls 

# We can use a function from TensorFlow to calculate this. 
num features = layer shape[1:4].num elements() 


# Reshape the layer to [num images, num features]. 

# Note that we just set the size of the second dimension 

# to num features and the size of the first dimension to -1 
# which means the size in that dimension is calculated 

# so the total size of the tensor is unchanged from the resh 
ge 

layer flat = tf.reshape(layer, [-1, num features]) 


# The shape of the flattened layer is now: 
# [num images, img height * img width * num channels] 


# Return both the flattened layer and the number of features. 


return layer flat, num features 


Bl —————— Á mener i 


BTE 
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LU)? 


的 帮助 函数 创建 一 个 全 连接 层 。 

new_fc_layer(input, # The previous layer. 
num_inputs, # Num. inputs from prev. layer. 
num_outputs, # Num. outputs. 


use_relu=True): # Use Rectified Linear Unit (Re 


# Create new weights and biases. 
weights = new weights(shape-[num inputs, num outputs]) 
biases = new biases(length-num outputs) 


# Calculate the layer as the matrix multiplication of 
# the input and weights, and then add the bias-values. 
layer = tf.matmul(input, weights) + biases 
# Use ReLU? 
if use relu: 

layer - tf.nn.relu(layer) 


return layer 
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会 又 长 又 难以 理解 。 


注意 ， 我 们 并 不 会 运行 下 面 的 代码 。 写 在 这 里 只 是 为 了 与 PrettyTensor 的 代码 进行 
比较 。 


之 前 的 教程 使 用 定义 好 的 常量 ， 因 此 很 容易 改变 (变量) 。 比 如 ， 我 们 没有 将 
filter size-5 当 作 new conv layer() 的 参数 ， 而 是 

4 filter size-filter sizei ， 然 后 在 其 他 地 方 定义 filter sizei-5 。 这 样 
子 就 很 容易 改变 所 有 的 常量 。 


if False: # Don't execute this! Just show it for easy compariso 
ki 
# First convolutional layer. 
layer convi, weights convi = \ 
new conv layer(input-x image, 
num input channels-num channels, 
filter size-5, 
num filters-16, 
use pooling-True) 


# Second convolutional layer. 
layer conv2, weights conv2 = \ 
new conv layer (input-layer conv1, 
num input channels-16, 
filter size-5, 
num filters-36, 
use pooling-True) 


# Flatten layer. 
layer flat, num features - flatten layer(layer conv2) 


# First fully-connected layer. 

layer fci - new fc layer(input-layer flat, 
num inputs-num features, 
num outputs-128, 
use relu-True) 


4 Second fully-connected layer. 

layer fc2 = new fc layer(input-layer fci, 
num inputs-128, 
num outputs-num classes, 
use relu-False) 


# Predicted class-label. 
y pred - tf.nn.softmax(layer fc2) 


# Cross-entropy for the classification of each image. 
cross entropy = \ 
tf.nn.softmax cross entropy with logits(logits-layer fc2 
labels-y true) 
# Loss aka. cost-measure. 


# This is the scalar value that must be minimized. 
loss - tf.reduce mean(cross entropy) 


PrettyTensor 3: 3i 


这 一 节 演 示 如 何 用 PrettyTensor 来 实现 一 个 相同 的 卷 积 神经 网 络 。 


基本 思想 就 是 用 一 个 PrettyTensor object 封 装 输 入 张 量 x_image ， 它 有 一 个 添加 新 
卷 积 层 的 帮助 函数 ， 以 此 来 创建 整个 神经 网 络 。 这 有 点 像 我 们 之 前 实现 的 那些 帮助 
函数 ， 但 它 更 简单 一 些 ， 因 为 PrettyTensor 记 录 每 一 层 的 输入 和 输出 维度 等 等 。 


x_pretty = pt.wrap(x_image) 


现在 我 们 已 经 将 输入 图 像 装 到 一 个 PrettyTensor 的 object 中 ， 再 用 几 行 代码 就 可 以 添 
加 卷 积 层 和 全 连接 层 。 


注意 ， 在 with 代码 块 中 ， pt.defaults_scope(activation_fn=tf.nn.relu) 
把 activation fn-tf.nn.relu 当 作 每 个 的 层 参数 ， 因 此 这 些 层 都 用 到 了 
Rectified Linear Units (ReLU) 。 defaults scope 使 我 们 能 更 方便 地 修改 所 有 层 
的 参数 。 


with pt.defaults_scope(activation_fn=tf.nn.relu): 
y_pred, loss = x_pretty.\ 

conv2d(kernel=5, depth=16, name='layer_convi').\ 
max_pool(kernel=2, stride=2).\ 
conv2d(kernel=5, depth=36, name='layer_conv2').\ 
max_pool(kernel=2, stride=2).\ 
flatten().\ 
fully_connected(size=128, name='layer_fci').\ 
softmax_classifier(num_classes=num_classes, labels=y_tru 

e) 


就 是 这 样 | 现在 我 们 用 几 行 代码 就 创建 了 一 个 完全 一 样 的 卷 积 神经 网 络 ， 如 果 直 接 
用 TensorFlow 实 现 的 话 需要 一 大 段 非常 复杂 的 代码 。 


用 PrettyTensor 来 代替 TensorFlow， 我 们 可 以 清楚 地 看 到 网 络 的 构造 以 及 数据 如 何 
在 网 络 中 流通 。 这 让 我 们 可 以 专注 于 神经 网 络 的 关键 思想 而 不 是 底层 的 实现 细节 © 
它 十 分 简单 优雅 ! 


获取 权重 


不 幸 的 是 ， 使 用 PrettyTensor 时 并 非 所 有 的 事 都 那么 优雅 。 


下 面 ， 我 们 想 要 绘制 出 卷 积 层 的 权重 。 在 用 TensorFlow 实 现时 ， 我 们 自己 创建 了 变 
量 ， 所 以 可 以 直接 访问 它们 。 但 使 用 PrettyTensor 构 造 网 络 时 ， 所 有 的 变量 都 是 间 
接地 由 PrettyTensor 创 建 。 因 此 我 们 不 得 不 从 TensorFlow 中 找 回 变量 。 


我 们 用 layer convi 和 layer_conv2 代表 两 个 卷 积 层 。 这 也 叫 变 量 作 用 域 
(不 要 与 上 面 描述 的 defaults_scope 混淆 了 ) 。PrettyTensor 会 自动 给 它 为 每 个 
层 创建 的 变量 命名 ， 因 此 我 们 可 以 通过 层 的 作用 域名 称 和 变量 名 来 取得 某 一 层 的 权 
重 o 


函数 实现 有 点 笨拙 ， 因 为 我 们 不 得 不 用 TensorFlow 有 函数 get variable() ， 它 是 
设计 给 其 他 用 途 的 ， 创 建新 的 变量 或 重用 现 有 变量 。 创 建 下 面 的 帮助 函数 很 简单 。 


def get_weights_variable(layer_name): 
# Retrieve an existing variable named 'weights' in the scope 
# with the given layer_name. 
# This is awkward because the TensorFlow function was 
# really intended for another purpose. 


with tf.variable_scope(layer_name, reuse=True): 
variable = tf.get variable('weights') 


return variable 
借助 这 个 帮助 函数 我 们 可 以 获取 变量 。 这 些 是 TensorFlow 的 objects。 你 需要 类 似 的 


变量 的 内 容 : contents = session.run(weights convi) ， 下 面 会 
提 到 这 o 


weights convi 
weights conv2 


get weights variable(layer name-'layer conv1') 
get weights variable(layer name-'layer conv2') 


优化 方法 
ai IE 合 我 们 提供 了 预 NARE E y pred ) 以 及 一 个 需要 最 小 化 的 损失 度 
> 用 来 提升 神经 网 络 分 类 图 片 的 能 力 。 


PrettyTensor 的 文档 并 没有 说 明 它 的 损失 度量 是 用 cross-entropy 还 是 其 他 的 。 但 现 
在 我 们 用 AdamOptimizer 来 最 小 化 损失 。 

优化 过 程 并 不 是 在 这 里 执行 。 实 际 上 ， 还 没 计算 任何 东西 ， 我 们 只 是 往 TensorFlow 
图 中 添加 了 优化 器 ， 以 便 后 续 操 作 。 


optimizer = tf.train.AdamOptimizer(learning rate-ie-4).minimize( 
loss) 


性 能 度量 
我 们 需要 另外 一 些 性 能 度量 ， 来 向 用 户 展示 这 个 过 程 。 
首先 我 们 从 神经 网 络 输出 的 y_pred 中 计算 出 预测 的 类 别 ， 它 是 一 个 包含 10 个 元 素 


输 
的 向 量 。 类 别 数字 是 EKARRI. 


y_pred_cls = tf.argmax(y_pred, dimension=1) 


然后 创建 一 个 布尔 向 量 ， 用 来 告诉 我 们 每 张 图 片 的 真实 类 别 是 否 与 预测 类 别 相 同 。 


correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


上 面 的 计算 先 将 a 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 
成 1， 然 后 计算 这 些 值 的 平均 娄 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


运行 TensorFlow 


创建 TensorFlow 会 话 (session ) 


一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 


session = tf.Session() 


初始 化 变量 
我 们 需要 在 开始 优化 weights 和 biases 变量 之 前 对 它们 进行 初始 化 。 


session.run(tf.global variables initializer()) 


用 来 优化 迭代 的 帮助 函 


在 训练 集中 有 50,000 张 图 。 用 这 些 图 像 计算 模型 的 梯度 会 花 很 多 时 间 。 因 此 我 们 利 
用 随机 梯度 下 降 的 方法 ， 它 在 优化 器 的 每 次 迭代 里 只 用 到 了 一 小 部 2 584 如 果 
内 存 耗 尽 导 致电 脑 死机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 数量 ， 但 同时 可 能 还 需要 
更 优化 的 迭代 。 


train batch size = 64 


函数 执行 了 多 次 的 优化 和 迭代 来 逐步 地 提升 网 络 层 的 变量 。 。 在 每 次 迭代 中 ， 从 训练 集 
中 选择 一 批 新 的 数据 ， 然 后 TensorFlow 用 这 些 训练 样本 来 执行 优化 器 。 每 100 次 选 
代 会 打印 出 相关 信息 。 


# Counter for total number of iterations performed so far. 
total_iterations = 0 


def EE iterations): 
# Ensure we update the global variable rather than a local c 
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opy. 
global total_iterations 


# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(total_iterations, 
total_iterations + num_iterations): 


# Get a batch of training examples. 

# x_batch now holds a batch of images and 

# y_true_batch are the true labels for those images. 

x_batch, y_true_batch = data.train.next_batch(train_batc 
h_size) 


# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed dict train = {x: x_batch, 

y_true: y_true_batch} 


# Run the optimizer using this batch of training data. 

# TensorFlow assigns the variables in feed_dict_train 

# to the placeholder variables and then runs the optimiz 
er. 

session.run(optimizer, feed_dict=feed_dict_train) 


# Print status every 100 iterations. 
if i% 100 == 
# Calculate the accuracy on the training-set. 
acc = session.run(accuracy, feed_dict=feed_dict_trai 


n) 


# Message for printing. 
msg = "Optimization Iteration: {0:>6}, Training Accu 
racy: (1:6. Ie” 


# Print it. 
print(msg.format(i + 1, acc)) 


# Update the total number of iterations performed. 
total_iterations += num_iterations 


# Ending time. 
end time = time.time() 


# Difference between start and end-times. 
time_dif = end_time - start_time 


# Print the time-usage. 
print("Time usage: " + str(timedelta(seconds=int(round(time_ 


dif))))) 
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用 来 绘制 错误 样本 的 帮助 函数 
函数 用 来 绘制 测试 集中 被 误 分 类 的 样本 。 


def plot example errors(cls pred, correct): 
# This function is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# correct is a boolean array whether the predicted class 
# is equal to the true class for each image in the test-set. 


# Negate the boolean array. 
incorrect - (correct -- False) 


# Get the images from the test-set that have been 
# incorrectly classified. 
images - data.test.images[incorrect] 


# Get the predicted classes for those images. 
cls pred = cls_pred[incorrect ] 


# Get the true classes for those images. 
cls true - data.test.cls[incorrect] 


# Plot the first 9 images. 

plot images(images-images[9:9], 
cls_true=cls_true[0:9], 
cls_pred=cls_pred[0:9]) 


绘制 混淆 (confusion) 4E TE 85 3$ By AK 





def plot_confusion_matrix(cls_pred): 
# This is called from print_test_accuracy() below. 


# cls_pred is an array of the predicted class-number for 
# all images in the test-set. 


# Get the true classifications for the test-set. 
cls_true = data.test.cls 


# Get the confusion matrix using sklearn. 
cm = confusion_matrix(y_true=cls_true, 
y_pred=cls_pred) 


# Print the confusion matrix as text. 
print(cm) 


# Plot the confusion matrix as an image. 
plt.matshow(cm) 


# Make various adjustments to the plot. 
plt.colorbar() 

tick_marks = np.arange(num_classes) 
plt.xticks(tick_marks, range(num_classes)) 
plt.yticks(tick_marks, range(num_classes)) 
plt.xlabel( 'Predicted') 

plt.ylabel('True') 


# Ensure the plot is shown correctly with multiple plots 


4 in a single Notebook cell. 
plt.show() 


展示 性 能 的 帮助 函数 

函数 用 来 打印 测试 集 上 的 分 类 准确 度 。 

为 测试 集 上 的 所 有 图 片 计算 分 类 会 花费 一 段 时 间 ， 因 此 我 们 直接 用 这 个 函数 来 调用 
上 面 的 结果 ， 这 样 就 不 用 每 次 都 重新 计算 了 。 

这 个 函数 可 能 会 占用 很 多 电脑 内 存 ， 这 也 是 为 什么 将 测试 集 分 成 更 小 的 几 个 部 分 。 
如 果 你 的 电脑 内 存 比 较 小 或 死机 了 ， 就 要 试 着 降低 batch-size 。 


# Split the test-set into smaller batches of this size. 
test_batch_size = 256 


def print_test_accuracy(show_example_errors=False, 
show_confusion_matrix=False): 


# Number of images in the test-set. 
num_test = len(data.test.images) 
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# Allocate an array for the predicted classes which 
# will be calculated in batches and filled into this array. 
cls_pred = np.zeros(shape=num_test, dtype=np.int) 


# Now calculate the predicted classes for the batches. 
# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


Se 
# The starting index for the next batch is denoted i. 
i=0 
while i < num_test: 
# The ending index for the next batch is denoted j. 
j = min(i + test batch size, num test) 
4 Get the images from the test-set between index i and j. 
images - data.test.images[i:j, :] 
# Get the associated labels. 
labels - data.test.labels[i:j, :] 
# Create a feed-dict with these images and labels. 
feed dict - (x: images, 
y true: labels) 
# Calculate the predicted class using TensorFlow. 
cls pred[i:j] = session.run(y. pred cls, feed dict-feed d 
ict) 
# Set the start-index for the next batch to the 
# end-index of the current batch. 
i- j 
# Convenience variable for the true class-numbers of the tes 
toset: 
cls_true = data.test.cls 
# Create a boolean array whether each image is correctly cla 
ssified. 
correct = (cls_true == cls_pred) 
# Calculate the number of correctly classified images. 
# When summing a boolean array, False means 0 and True means 
di. 
correct sum = correct.sum() 
# Classification accuracy is the number of correctly classif 
ied 
# images divided by the total number of images in the test-s 
eier 


acc = float(correct_sum) / num_test 
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# Print the accuracy. 
msg = "Accuracy on Test-Set: {0:.1%} ((1) / {2})" 
print(msg.format(acc, correct_sum, num_test)) 
# Plot some examples of mis-classifications, if desired. 
if show_example_errors: 
print("Example errors:") 
plot_example_errors(cls_pred=cls_pred, correct=correct) 
# Plot the confusion matrix, if desired. 
if show_confusion_matrix: 


print("Confusion Matrix:") 
plot_confusion_matrix(cls_pred=cls_pred) 


es 
优化 之 前 的 性 能 


测试 集 上 的 准确 度 很 低 ， 这 是 由 于 模型 只 做 了 初始 化 ， 并 没 做 任何 优化 ， 所 以 它 只 
是 对 图 像 做 随机 分 类 。 


print_test_accuracy() 


Accuracy on Test-Set: 9.1% (909 / 1000®) 


1 次 和 迭代 后 的 性 能 
做 了 一 次 优化 后 ， 此 时 优化 器 的 学 习 率 很 低 ， 性 能 其 实 并 没有 多 大 提升 。 


optimize(num_iterations=1) 


Optimization Iteration: 1, Training Accuracy: 6.2% 
Time usage: 0:00:00 


print test accuracy() 


Accuracy on Test-Set: 8.996 (892 / 10000) 


100 次 迭代 优化 后 的 性 能 

100 次 优化 迭代 之 后 ， 模 型 显著 地 提升 了 分 类 的 准确 度 。 
optimize(num_iterations=99) # We already performed 1 iteration a 
bove. 
Time usage: 0:00:00 


print_test_accuracy(show_example_errors=True) 


Accuracy on Test-Set: 83.9% (8393 / 10000) 
Example errors: 


m 
A 
v 


True: 2, Pred: 3 True: 5, Pred: 4 True: 5, Pred: 3 


[= 
> 
m 


True: 4, Pred: 0 True: 2, Pred: 6 True: 5, Pred: 3 
True: 1, Pred: 3 True: 5, Pred: 3 True: 6, Pred: 2 


1000 次 优化 和 迭代 后 的 性 能 
1000 次 优化 迭代 之 后 ， 模 型 在 测试 集 上 的 准确 度 超过 了 90% © 


optimize(num_iterations=900) # We performed 100 iterations above. 
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print_test_accuracy(show_example_errors=True) 
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10,000 次 优化 迭代 后 的 性 能 


经 过 10,000 次 优化 迭代 后 ， 测 试 集 上 的 分 类 准确 率 高 达 999% © 
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print_test_accuracy(show_example_errors=True, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 98.8% (9881 / 10000) 
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权重 和 层 的 可 视 化 

当 我 们 直接 用 TensorFlow 来 实现 卷 积 神经 网 络 时 ， 可 以 很 容易 地 画 出 卷 积 权重 和 不 
同 层 的 输出 图 像 。 当 使 用 PrettyTensor 的 时 候 ， 我 们 也 可 以 通过 上 面 提 到 过 的 方法 
取得 权重 ， 但 我 们 无 法 简单 得 到 卷 积 层 的 输出 (图像 ) 。 因 此 下 面 只 绘制 了 权重 。 


绘制 卷 积 权重 的 帮助 函数 


Pretty Tensor 


def plot_conv_weights(weights, input channel-0): 
# Assume weights are TensorFlow ops for 4-dim variables 
# e.g. weights convi or weights conv2. 


# Retrieve the values of the weight-variables from TensorFlo 


W. 
# A feed-dict is not necessary because nothing is calculated. 
w = session.run(weights) 
# Get the lowest and highest values for the weights. 
# This is used to correct the colour intensity across 
# the images so they can be compared with each other. 
w min - np.min(w) 
w max - np.max(w) 
# Number of filters used in the conv. layer. 
num filters - w.shape[3] 
# Number of grids to plot. 
# Rounded-up, square-root of the number of filters. 
num grids - math.ceil(math.sqrt(num filters)) 
# Create figure with a grid of sub-plots. 
fig, axes - plt.subplots(num grids, num grids) 
# Plot all the filter-weights. 
for i, ax in enumerate(axes.flat): 
4 Only plot the valid filter-weights. 
if i«num filters: 
# Get the weights for the i'th filter of the input c 
hannel. 
# See new conv layer() for details on the format 
# of this 4-dim tensor. 
img - w[:, :, input channel, i] 
# Plot image. 
ax.imshow(img, vmin-w min, vmax-w max, 
interpolation-'nearest', cmap='seismic' ) 
# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 
# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show() 
Bea wj 
卷 积 层 1 


85 


现在 绘制 第 一 个 卷 积 层 的 滤波 权重 。 
其 中 正 值 权重 是 红色 的 ， 负 值 为 蓝 色 。 


plot conv weights(weights-weights convi) 
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现在 绘制 第 二 个 卷 积 层 的 滤波 权重 。 


第 一 个 卷 各 只 层 有 16 个 输出 通道 ， 代 表 着 第 个 卷 积 层 的 
每 个 输入 通道 也 有 一 些 权 重 滤波 。 我 们 先 绘 制 第 一 个 通道 i er 


同样 的 ， 正 值 是 红色 ， 负 值 是 蓝 色 。 


plot conv weights(weights-weights conv2, input_channel=0) 


Pretty Tensor 
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个 卷 积 层 共有 16 个 输入 通道 ， 我 们 可 以 同样 地 画 出 15 张 其 他 滤波 权重 图 像 。 这 


里 我 们 再 画 一 下 第 二 个 通道 的 图 像 。 
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conv2, input_channel 
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plot_conv_weights(weights 
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现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 
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# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# session.close() 
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相 比 直接 使 用 TensorFlow，PrettyTensor 可 以 用 更 简单 的 代码 来 实现 神经 网 络 。 这 
使 你 能 够 专注 于 自己 的 想法 而 不 是 底层 的 实现 细节 。 它 让 代码 更 易于 理解 ， 也 减少 
犯错 的 可 能 。 


然而 ，PrettyTensor 中 有 一 些 矛盾 和 笨拙 的 设计 ， 它 的 文档 简短 而 又 令 人 疑惑 ， 也 
不 易于 学 习 。 硕 望 未 来 会 有 所 改进 (本 文 写 于 2016 七 月 ) 。 


还 有 一 些 PrettyTensor 的 替代 品 ， 包 括 TFLearn 和 Keras 。 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 将 所 有 层 的 激活 函数 改 成 sigmod。 

e 在 一 些 层 中 使 用 sigmod * 一些 层 中 使 用 relu。 这 里 能 
用 defaults scope 吗 ? 

e 在 所 有 层 里 使 用 12loss。 然 后 试 着 只 在 某 些 层 里 使 用 这 个 。 

e 用 PrettyTensor 的 reshape 函 数 代 替 TensorFlow 的 。 其 中 某 一 个 会 更 好 吗 ? 

e 在 全 连接 层 后 面 添加 一 个 dropout-layer。 如 果 你 在 训练 和 测试 的 时 候 想 要 一 个 
不 同 的 keep prob ， 就 需要 在 feed-dict 中 设置 一 个 placeholder 变 量 。 

e 用 stride=2 来 代替 2x2 max-pooling 层 。 分 类 准确 率 会 有 所 不 同 么 ?你 多 次 优化 
它们 之 后 呢 ? 差异 是 随机 的 ， 你 如 何 度 量 是 否 丨 实 存 在 差异 呢 ? 在 卷 积 层 中 使 
用 max-pooling 和 stride 的 优 缺 点 是 什么 ? 

e 改变 层 的 参数 ， 比 如 kernel、depth、size 等 等 。 耗 费 的 时 间 以 及 分 类 准确 率 有 
什么 差别 ? 

e. 添加 或 删除 茶 些 卷 积 层 和 全 连接 层 。 

e 你 设计 的 表现 良好 的 最 简 网 络 是 什么 ? 

e 取 回 卷 积 层 的 bias-values 并 打印 出 来 。 参 考 一 
下 get_weights_variable() 的 实现 。 

e 不 看 源码 ， 自 己 重 写 程序 。 

e 向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #04 


保存 & 恢复 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻 译 thrillerist/Github 


简介 


这 篇 教程 展示 了 如 何 保 存 以 及 恢复 神经 网 络 中 的 变量 。 在 优化 的 过 程 中 ， 当 验证 集 
上 分 类 准确 率 提 高 时 ， 保 存 神经 网 络 的 变量 。 如 果 经 过 1000 次 迭代 还 不 能 提升 性 能 
时 ， 就 终止 优化 。 然 后 我 们 重新 载 入 在 验证 集 上 表现 最 好 的 变量 。 

这 种 策略 称 为 Early-Stopping。 它 用 来 避免 神经 网 络 的 过 拟 合 。 (过 拟 合 ) 会 在 神 
经 网 络 训练 时 间 太 长 时 出 现 ， 此 时 神经 网 络 开 始 学 习 训 练 集中 的 噪声 ， 将 导致 它 误 
分 类 新 的 图 像 。 

这 篇 教程 主要 是 用 神经 网 络 来 识别 MNIST 数 据 集中 的 手写 数字 ， 过 拟 合 在 这 里 并 不 
是 什么 大 问题 。 但 本 教程 展示 了 Early Stopping 的 思想 。 


本 文 基 于 上 一 篇 教程 ， 你 需要 了 解 基本 的 TensorFlow 和 附加 包 Pretty Tensor。 其 中 
大 量 代 码 和 文字 与 之 前 教程 相似 ， 如 果 你 已 经 看 过 就 可 以 快速 地 浏览 本 文 。 


流程 图 
下 面 的 图 表 直 接 显示 


了 
和 两 个 全 连接 层 ， 最 后 
描述 见 教程 #02 » 


之 后 实现 的 卷 积 神经 网 络 中 数据 的 传递 。 网 络 有 两 个 卷 积 层 
一 层 是 用 来 给 输入 图 像 分 类 的 。 关 于 网 络 和 卷 积 的 更 多 细节 


from IPython.display import Image 
Image('images/02 network flowchart.png') 
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%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 
import time 

from datetime import timedelta 

import math 

import os 


# Use PrettyTensor to simplify Neural Network construction. 
import prettytensor as pt 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version . 


'0.12.0-rc0' 


PrettyTensor 版 本 : 


pt. version . 


"027.1 


载 入 数据 
MNIST 数 据 集 大 约 12MB， 如 果 没 在 给 定 路 径 中 找到 就 会 自动 下 载 。 


from tensorflow.examples.tutorials.mnist import input_data 
data = input_data.read_data_sets('data/MNIST/', one_hot=True) 


Extracting data/MNIST/train-images-idx3-ubyte.gz 
Extracting data/MNIST/train-labels-idx1-ubyte.gz 
Extracting data/MNIST/ti10k-images-idx3-ubyte.gz 
Extracting data/MNIST/t10k-labels-idx1-ubyte.gz 


现在 已 经 载 入 了 MNIST 数 据 集 ， 它 由 70,000 张 图 像 和 对 应 的 标签 (比如 图 像 的 类 
别 ) 组 成 。 数 据 集 分 成 三 份 互 相 独 立 的 子 集 。 我 们 在 教程 中 只 用 训练 集 和 测试 集 。 


print("Size of:") 

print("- Training-set:\t\t{}".format(len(data.train.labels))) 
print("- Test-set:\t\t{}".format(len(data.test.labels))) 
print("- Validation-set:\t{}".format(len(data.validation.labels) 
)) 


Size of: 

- Training-set: 55000 
- Test-set: 10000 

- Validation-set: 5000 


类 型 标签 使 用 One-Hot 编 码 ， 这 意外 每 个 标签 是 长 为 10 的 向 量 ， 除 了 一 个 元 素 之 
外 ， 其 他 的 都 为 零 。 这 个 元 素 的 索引 就 是 类 别 的 数字 ， 即 相应 图 片 中 画 的 数字 。 我 
们 也 需 要 测试 数据 集 类 别 数字 的 整 型 值 ， 用 下 面 的 方法 来 计算 。 


data.test.cls = np.argmax(data.test.labels, axis=1) 
data.validation.cls = np.argmax(data.validation.labels, axis=1) 


数据 维度 


在 下 面 的 源码 中 ， 有 很 多 地 方 用 到 了 数据 维度 。 它 们 只 在 一 个 地 方 定义 ， 因 此 我 们 
可 以 在 代码 中 使 用 这 些 数字 而 不 是 直接 写 数字 。 


# We know that MNIST images are 28 pixels in each dimension. 
img_size = 28 


# Images are stored in one-dimensional arrays of this length. 
img_size_flat = img_size * img_size 


# Tuple with height and width of images used to reshape arrays. 
img_shape = (img_size, img_size) 


# Number of colour channels for the images: 1 channel for gray-s 
cale. 
num_channels = 1 


# Number of classes, one class for each of 10 digits. 
num_classes = 10 


用 来 绘制 图 片 的 帮助 函数 


这 个 函数 用 来 在 3X3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图 像 下 面 写 出 真实 类 别 和 预测 
类 别 o 


def plot images(images, cls true, cls_pred=None): 
assert len(images) -- len(cls true) -- 


4 Create figure with 3x3 sub-plots. 
fig, axes - plt.subplots(3, 3) 
fig.subplots_adjust(hspace=0.3, wspace=0.3) 


for i, ax in enumerate(axes.flat): 
# Plot image. 
ax.imshow(images[i].reshape(img_shape), cmap='binary' ) 


# Show true and predicted classes. 
if cls_pred is None: 
xlabel = "True: {0}".format(cls_true[i]) 
else: 
Xlabel = "True: (0), Pred: {1}".format(cls_true[i], 
cls_pred[i]) 


# Show the classes as the label on the x-axis. 
ax.set_xlabel(xlabel) 


# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show( ) 


绘制 几 张 图 像 来 看 看 数据 是 否 正确 
# Get the first images from the test-set. 
images = data.test.images[0:9] 


# Get the true classes for those images. 
cls true = data.test.cls[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true) 


True: 7 True: 2 True: 1 
True: 0 True: 4 True: 1 
q4 A © 
True: 4 True: 9 True: 5 

TensorFlow X 


TensorFlow 的 全 部 目的 就 是 使 用 一 个 称 之 为 计算 图 (computational graph) 的 东 
西 ， 它 会 比 直接 在 Python 中 进行 相同 计算 量 要 高 效 得 多 。TensorFlow 比 Numpy 更 高 
效 ， 因 为 TensorFlow 了 解 整个 需要 运行 的 计算 图 ， 然 而 Numpy 只 知道 某 个 时 间 点 上 
唯一 的 数学 运算 。 


TensorFlow 也 能 够 自动 地 计算 需要 优化 的 变量 的 梯度 ， 使 得 模型 有 更 好 的 表现 。 这 
是 由 于 图 是 简单 数学 表达 式 的 结合 ， 因 此 整个 图 的 梯度 可 以 用 链 式 法 则 推导 出 来 。 


TensorFlow 还 能 利用 多 核 CPU 和 GPU ，Google 也 为 TensorFlow 制 造 了 称 为 
TPUs (Tensor Processing Units) 的 特殊 芯片 ， 它 比 GPU 更 快 。 


一 个 TensorFlow 图 由 下 面 几 个 部 分 组 成 ， 后 面 会 详细 描述 : 


e hiit ZE (Placeholder) 用 来 改变 图 的 输入 。 

o BAFE (Model) 将 会 被 优化 ， 使 得 模型 表现 得 更 好 。 

。 模型 本 质 上 就 是 一 些 数学 函数 ， 它 根据 Placeholder 和 模型 的 输入 变量 来 计算 一 
些 输 出 。 

e 一 个 cost 度 量 用 来 指导 变量 的 优化 。 

e 一 个 优化 策略 会 更 新 模型 的 变量 。 


另外 ，TensorFlow 图 也 包含 了 一 些 调试 状态 ， 比 如 用 TensorBoard 打 印 log 数 据 ， 本 
教程 不 涉及 这 些 。 
占 位 符 (Placeholder) € € 


Placeholder 是 作为 图 的 输入 ， 我 们 每 次 运行 图 的 时 候 都 可 能 改变 它们 。 将 这 个 过 程 
称 为 feeding placeholder 变 量 ， 后 面 将 会 描述 这 个 。 


首先 我 们 为 输入 图 像 定 义 placeholder 变 量 。 这 让 我 们 可 以 改变 输入 到 TensorFlow 图 
中 的 图 像 。 这 也 是 一 个 张 量 (tensor) ， 代 表 一 个 多 维 向量 或 矩阵 。 数 据 类 型 设置 
为 float32， 形 状 设 为 [None, img size flat] ， None 代表 tensor 可 能 保存 着 任 
意 数 量 的 图 像 ， 每 张 图 象 是 一 个 长 度 为 img size flat 的 向 量 。 


x = tf.placeholder(tf.float32, shape=[None, img_size_flat], name= 
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BARRA x 被 编码 为 4 维 张 量 ， 因 此 我 们 需要 将 它 的 形状 转换 

至 [num_images, img_height, img_width, num_channels] 。 注 

意 img_height == img_width == img_size ， 如 果 第 一 维 的 大 小 设 为 -1， 
num images 的 大 小 也 会 被 自动 推导 出 来 。 转 换 运算 如 下 : 


x image = tf.reshape(x, [-1, img size, img size, num channels]) 


接 下 来 我 们 为 输入 变量 x PHARMA  83 Ais € 3 placeholder € € » FF 
的 形状 是 [None, num classes] ， 这 代表 着 它 保存 了 任意 数量 的 标签 ， 每 个 标签 
是 长 度 为 num classes 的 向 量 ， 本 例 中 长 度 为 10。 


g 


y true - tf.placeholder(tf.float32, shape-[None, 10], name-'y tr 
ue') 


我 们 也 可 以 为 class-number 提 供 一 个 placeholder 这 里 用 argmax 来 计算 它 。 这 


， 但 
只 是 TensorFlow 中 的 一 些 操作 ， 没 有 执行 什么 运算 。 


y true cls = tf.argmax(y_true, dimension=1) 


神经 网 络 


这 一 节 用 PrettyTensor 实 现 卷 积 神经 网 络 ， 这 要 上 比 直接 在 TensorFlow 中 实现 来 得 简 
单 ， 详 见 教程 #03。 


基本 思想 就 是 用 一 个 Pretty Tensor object 封 装 输入 张 量 x_image ， 它 有 一 个 添加 
新 卷 积 层 的 帮助 函数 ， 以 此 来 创建 整个 神经 网 络 。Pretty Tensor 负 责 变 量 分 配 等 


X pretty = pt.wrap(x_image) 


现在 我 们 已 经 将 输入 图 像 装 到 一 个 PrettyTensor 的 object 中 ， 再 用 几 行 代码 就 可 以 添 
加 卷 积 层 和 全 连接 层 。 


注意 ， 在 with 代码 块 中 ， pt.defaults_scope(activation_fn=tf.nn.relu) 
把 activation fn-tf.nn.relu 当 作 每 个 的 层 参数 ， 因 此 这 些 层 都 用 到 了 
Rectified Linear Units (ReLU) 。 defaults_scope 使 我 们 能 更 方便 地 修改 所 有 层 
的 参数 。 


with pt.defaults_scope(activation_fn=tf.nn.relu): 
y_pred, loss = x_pretty.\ 
conv2d(kernel=5, depth=16, name='layer_conv1').\ 
max_pool(kernel=2, stride=2).\ 
conv2d(kernel=5, depth=36, name='layer_conv2').\ 
max_pool(kernel=2, stride=2).\ 
flatten().\ 
fully connected(size-128, name='layer_fc1').\ 
softmax classifier(num classes-num classes, labels-y tru 
e) 


获取 权重 


下 面 ， 我 们 要 绘制 神经 网 络 的 权重 。 当 使 用 Pretty Tensor 来 创建 网 络 时 ， 层 的 所 有 
变量 都 是 由 Pretty Tensoe 间 接 创 建 的 。 因 此 我 们 要 从 TensorFlow 中 获取 变量 。 


我 们 用 layer convi 和 layer_conv2 代表 两 个 卷 积 层 。 这 也 叫 变 量 作 用 域 
(不 要 与 上 面 描述 的 defaults_scope 混淆 了 ) 。PrettyTensor 会 自动 给 它 为 每 个 
层 创建 的 变量 命名 ， 因 此 我 们 可 以 通过 层 的 作用 域名 称 和 变量 名 来 取得 某 一 层 的 权 
重 。 


函数 实现 有 点 策 拙 ， 因 为 我 们 不 得 不 用 TensorFlow 函 数 get variable() ， 它 是 
设计 给 其 他 用 途 的 ， 创 建新 的 变量 或 重用 现 有 变量 。 创 建 下 面 的 帮助 函数 很 简单 。 


def get_weights_variable(layer_name): 
# Retrieve an existing variable named 'weights' in the scope 
# with the given layer_name. 
# This is awkward because the TensorFlow function was 
# really intended for another purpose. 


with tf.variable_scope(layer_name, reuse=True): 
variable = tf.get variable('weights') 


return variable 
借助 这 个 帮助 函数 我 们 可 以 获取 变量 。 这 些 是 TensorFlow 的 objects。 你 需要 类 似 的 
操作 来 获取 变量 的 内 容 : contents = session.run(weights convi) ， 下 面 会 


提 到 这 个 。 


get_weights_variable(layer_name='layer_conv1') 
get_weights_variable(layer_name='layer_conv2') 


weights_conv1 
weights_conv2 
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Hi Ek 合 我 们 提供 了 预测 类 型 标签 ( y pred ) 以 及 一 个 需要 最 小 化 的 损失 度 
， 用 来 提升 神经 网 络 分 类 图 片 的 能 力 。 


PrettyTensor 的 文档 并 没有 说 明 它 的 损失 度量 是 用 cross-entropy 还 是 其 他 的 。 但 现 
在 我 们 用 Adamoptimizer 来 最 小 化 损失 。 


优化 过 程 并 不 是 在 这 里 执行 。 实 际 上 ， 还 没 计算 任何 东西 ， 我 们 只 是 往 TensorFlow 
图 中 添加 了 优化 器 ， 以 便 后 续 操 作 。 


optimizer = tf.train.AdamOptimizer (learning_rate=1e-4) .minimize( 
loss) 


性 能 度量 
我 们 需要 另外 一 些 性 能 度量 ， 来 向 用 户 展示 这 个 过 程 。 


首先 我 们 从 神经 网 络 输出 的 y_pred 中 计算 出 预测 的 类 别 ， 它 是 一 个 包含 10 个 元 素 
的 向 量 。 类 别 数字 是 最 大 元 素 的 索引 。 


y pred cls = tf.argmax(y_pred, dimension=1) 


然后 创 个 布尔 向 量 ， 用 来 告诉 我 们 每 张 图 片 的 丨 实 类 别 是 否 与 预测 类 别 相 同 。 


correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


上 面 的 计算 先 将 1 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 
成 1， 然 后 计算 这 些 值 的 平均 数 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


Saver 
为 了 保存 神经 网 络 的 变量 ， 我 们 创建 一 个 称 为 Saver-object 的 对 象 ， 它 用 来 保存 及 


恢复 TensorFlow 图 的 所 有 变量 。 在 这 里 并 未 保存 什么 东西 ， (保存 操作 ) 在 后 面 
的 optimize() 函数 中 完成 。 


saver = tf.train.Saver() 


由 于 (保存 操作 ) 常 间隔 着 写 在 (代码 ) 中 ， 因 此 保存 的 文件 通常 称 为 
checkpoints ° 


这 是 用 来 保存 或 恢复 数据 的 文件 夹 。 
save_dir = 'checkpoints/' 


如 果 文 件 夹 不 存在 则 创建 。 


if not os.path.exists(save_dir): 
os.makedirs(save dir) 


这 是 保存 checkpoint 文 件 的 路 径 。 


save path = os.path.join(save_dir, 'best_validation' ) 


运行 TensorFlow 
创建 TensorFlow 会 话 (session ) 
一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 图 。 


session = tf.Session() 


初始 化 变量 


变量 weights 和 biases 在 优化 之 前 需要 先进 行 初 始 化 。 我 们 写 一 个 简单 的 封装 
函数 ， 后 面 会 再 次 调用 。 


def init_variables(): 
session.run(tf.global_variables_initializer()) 
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init variables() 


用 来 优化 迭代 的 帮助 函 


在 训练 集中 有 50,000 张 图 。 用 这 些 图 像 计算 模型 的 梯度 会 花 很 多 时 间 。 因 此 我 们 利 
用 随机 梯度 下 降 的 方法 ， 它 在 优化 器 的 每 次 迭代 里 只 用 到 了 一 小 部 分 的 图 像 。 


果 内 存 耗 尽 导 致电 脑 死机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 数量 ， 但 同时 可 能 还 
5 nn 的 迭代 。 


train batch size = 64 


每 迭代 100 次 下 面 的 优化 函数 ， eur ER m o to Rit 7 1000 
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4 Best validation accuracy seen so far. 
best validation accuracy - 0.0 


# Iteration-number for last improvement to validation accuracy. 
last improvement - 0 


# Stop optimization if no improvement found in this many iterati 
ons. 
require improvement - 1000 


函数 用 来 执行 一 定数 量 的 优化 和 迭代， 以 此 来 逐渐 改善 网 络 层 的 变量 。 在 每 次 迭代 
中 ， 会 从 训练 集中 选择 新 的 一 批 数据 ， 然 后 TensorFlow 在 这 些 训 练 样本 上 执行 优 
化 。 每 100 次 和 迭代 会 打印 出 (信息 ) ， 同 时 计算 验证 准确 率 ， 如 果 效 果 有 提升 的 话 
会 将 它 保存 至 文件 。 


# Counter for total number of iterations performed so far. 
total_iterations = 0 


def optimize(num_iterations): 

# Ensure we update the global variables rather than local co 
pies. 

global total_iterations 

global best_validation_accuracy 

global last_improvement 


# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(num_iterations): 


# Increase the total number of iterations performed. 
# It is easier to update it in each iteration because 
# we need this number several times in the following. 
total_iterations += 1 


# Get a batch of training examples. 

# x_batch now holds a batch of images and 

# y_true_batch are the true labels for those images. 
x_batch, y_true_batch = data.train.next_batch(train_batc 
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# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed dict train = {x: x_batch, 

y_true: y_true_batch} 
# Run the optimizer using this batch of training data. 
# TensorFlow assigns the variables in feed_dict_train 
# to the placeholder variables and then runs the optimiz 
session.run(optimizer, feed_dict=feed_dict_train) 
# Print status every 100 iterations and after last itera 
if (total iterations % 100 == 0) or (i == (num iteration 


# Calculate the accuracy on the training-batch. 
acc train - session.run(accuracy, feed dict-feed dic 


# Calculate the accuracy on the validation-set. 
# The function returns 2 values but we only need the 
acc validation, _ = validation accuracy() 
# If validation accuracy is an improvement over best 
if acc validation » best validation accuracy: 
4 Update the best-known validation accuracy. 
best validation accuracy - acc validation 
4 Set the iteration for the last improvement to 
last improvement - total iterations 
# Save all variables of the TensorFlow graph to 
saver.save(sess-session, save path-save path) 
# A string to be printed below, shows improvemen 
improved str - '*' 
else: 
4 An empty string to be printed below. 
# Shows that no improvement was found. 


improved str - '' 


# Status-message for printing. 
msg = "Iter: {0:>6}, Train-Batch Accuracy: {1:>6.1%} 


, Validation Acc: {2:>6.1%} {3}" 
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# Print it. 
print(msg.format(i + 1, acc_train, acc_validation, i 
mproved_str)) 


# If no improvement found in the required number of iter 
ations. 


if total_iterations - last_improvement > require_improve 
ment: 


print("No improvement found in a while, stopping opt 
imization.") 


# Break out from the for-loop. 
break 


# Ending time. 
end time = time.time() 


# Difference between start and end-times. 
time_dif = end_time - start_time 


# Print the time-usage. 
print("Time usage: " + str(timedelta(seconds=int(round(time_ 


dif))))) 


用 来 绘制 错误 样本 的 帮助 函数 
函数 用 来 绘制 测试 集中 被 误 分 类 的 样本 。 


def plot example errors(cls pred, correct): 
# This function is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# correct is a boolean array whether the predicted class 
# is equal to the true class for each image in the test-set. 


# Negate the boolean array. 
incorrect - (correct -- False) 


# Get the images from the test-set that have been 
# incorrectly classified. 
images = data.test.images[incorrect ] 


# Get the predicted classes for those images. 
cls_pred = cls_pred[incorrect ] 


# Get the true classes for those images. 
cls true = data.test.cls[incorrect ] 


# Plot the first 9 images. 
plot_images(images=images[0:9], 


cls_true=cls_true[0:9], 
cls_pred=cls_pred[0:9]) 


绘制 混淆 (confusion) 4ETE 85 3$ By AK 
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def plot_confusion_matrix(cls_pred): 
# This is called from print_test_accuracy() below. 


# cls_pred is an array of the predicted class-number for 
# all images in the test-set. 


# Get the true classifications for the test-set. 
cls_true = data.test.cls 


# Get the confusion matrix using sklearn. 
cm = confusion_matrix(y_true=cls_true, 
y_pred=cls_pred) 


# Print the confusion matrix as text. 
print(cm) 


# Plot the confusion matrix as an image. 
plt.matshow(cm) 


# Make various adjustments to the plot. 
plt.colorbar() 

tick_marks = np.arange(num_classes) 
plt.xticks(tick_marks, range(num_classes)) 
plt.yticks(tick_marks, range(num_classes)) 
plt.xlabel( 'Predicted') 

plt.ylabel('True') 


# Ensure the plot is shown correctly with multiple plots 


4 in a single Notebook cell. 
plt.show() 


计算 分 类 的 帮助 函 


这 个 函数 用 来 计算 图 像 的 预测 类 别 ， 同 时 返回 一 个 代表 每 张 图 像 分 类 是 否 正 确 的 布 
尔 数 组 。 


由 于 计算 可 能 会 耗费 太 多 内 存 ， 就 分 批 处 理 。 如 果 你 的 电脑 死机 了 ， 试 着 降低 
batch-size ° 


# Split the data-set in batches of this size to limit RAM usage. 
batch_size = 256 


def predict_cls(images, labels, cls_true): 


ict) 


# Number of images. 
num_images = len(images) 


# Allocate an array for the predicted classes which 
# will be calculated in batches and filled into this array. 
cls_pred = np.zeros(shape=num_images, dtype=np.int) 


# Now calculate the predicted classes for the batches. 


# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


# The starting index for the next batch is denoted i. 


0 


while i < num_images: 


# The ending index for the next batch is denoted j. 
j = min(i + batch size, num images) 


# Create a feed-dict with the images and labels 
# between index i and j. 
feed_dict = {x: images[i:j, :], 

y_true: labels[i:j, :]} 


# Calculate the predicted class using TensorFlow. 
cls_pred[i:j] = session.run(y_pred_cls, feed_dict=feed_d 


# Set the start-index for the next batch to the 
# end-index of the current batch. 
i=j 


# Create a boolean array whether each image is correctly cla 
ssified. 
correct = (cls_true == cls_pred) 


return correct, cls_pred 


计算 测试 集 上 的 预测 类 别 。 


def predict cis test(): 


return predict_cls(images = data.test.images, 


labels = data.test.labels, 
cls_true = data.test.cls) 
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计算 验证 集 上 的 预测 类 别 。 


def predict_cls_validation(): 
return predict_cls(images = data.validation.images, 
labels = data.validation.labels, 
cls_true = data.validation.cls) 


T AE HA HY N By RR 


这 个 函数 计算 了 给 定 布尔 数组 的 分 类 准确 率 ， 布 尔 数组 表示 每 张 图 像 是 否 被 正确 分 
X o ute >» 
cls_accuracy([True, True, False, False, False]) = 2/5 = 0.4 ° 


def cls_accuracy(correct): 
# Calculate the number of correctly classified images. 
# When summing a boolean array, False means 0 and True means 


ale 
correct_sum = correct.sum() 
# Classification accuracy is the number of correctly classif 
ied 
# images divided by the total number of images in the test-s 
Gee 


acc = float(correct_sum) / len(correct) 


return acc, correct_sum 


计算 验证 集 上 的 分 类 准确 率 。 


def validation_accuracy(): 

# Get the array of booleans whether the classifications are 
correct 

# for the validation-set. 

# The function returns two values but we only need the first. 


correct, _ = predict cls validation() 


# Calculate the classification accuracy and return it. 
return cls_accuracy(correct) 


em EE DE NS : in] 
展示 性 能 的 帮助 函数 
函数 用 来 打印 测试 集 上 的 分 类 准确 率 。 


为 测试 集 上 的 所 有 图 片 计算 分 类 会 花费 一 段 时 间 ， 因 此 我 们 直接 从 这 个 函数 里 调用 
上 面 的 函数 ， 这 样 就 不 用 每 个 函数 都 重新 计算 分 类 。 


def print_test_accuracy(show_example_errors=False, 


show_confusion_matrix=False): 


# For all the images in the test-set, 
# calculate the predicted classes and whether they are corre 


Grr 

correct, cls_pred = predict_cls_test() 

# Classification accuracy and the number of correct classifi 
cations. 


acc, num_correct = cls_accuracy(correct) 


# Number of images being classified. 
num_images = len(correct) 


# Print the accuracy. 
msg = "Accuracy on Test-Set: {0:.1%} ({1} / {2})" 
print(msg.format(acc, num_correct, num_images) ) 


# Plot some examples of mis-classifications, if desired. 

if show_example_errors: 
print("Example errors:") 
plot_example_errors(cls_pred=cls_pred, correct=correct) 


# Plot the confusion matrix, if desired. 

if show_confusion_matrix: 
print("Confusion Matrix:") 
plot_confusion_matrix(cls_pred=cls_pred) 


绘制 卷 积 权重 的 帮助 函数 


def plot_conv_weights(weights, input_channel=0): 


# Assume weights are TensorFlow ops for 4-dim variables 
# e.g. weights convi or weights conv2. 


# Retrieve the values of the weight-variables from TensorFlo 
4 A feed-dict is not necessary because nothing is calculated. 
w = session.run(weights) 


# Print mean and standard deviation. 
print("Mean: {0:.5f}, Stdev: {1:.5f}".format(w.mean(), w.std 


0)) 


# Get the lowest and highest values for the weights. 
# This is used to correct the colour intensity across 
# the images so they can be compared with each other. 
w min - np.min(w) 

w max - np.max(w) 
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# Number of filters used in the conv. layer. 
num_filters = w.shape[3] 


# Number of grids to plot. 
# Rounded-up, square-root of the number of filters. 
num grids = math.ceil(math.sqrt(num_filters)) 


# Create figure with a grid of sub-plots. 
fig, axes = plt.subplots(num_grids, num_grids) 


# Plot all the filter-weights. 
for i, ax in enumerate(axes.flat): 
# Only plot the valid filter-weights. 
if i<num_filters: 
# Get the weights for the i'th filter of the input c 
hannel. 
# The format of this 4-dim tensor is determined by t 
he 
# TensorFlow API. See Tutorial #02 for more details. 
img = w[:, :, input channel, i] 


# Plot image. 
ax.imshow(img, vmin=w_min, vmax=w_max, 
interpolation='nearest', cmap='seismic' ) 
# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 
# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show( ) 


a 
优化 之 前 的 性 能 


测试 集 上 的 准确 度 很 低 ， 这 是 由 于 模型 只 做 了 初始 化 ， 并 没 做 任何 优化 ， 所 以 它 只 
是 对 图 像 做 随机 分 类 。 


print_test_accuracy() 
Accuracy on Test-Set: 8.5% (849 / 1000®) 


卷 积 权重 是 随机 的 ， 但 也 很 难 把 它 与 下 面 优化 过 的 权重 区 分 开 来 。 这 里 也 展示 了 平 
均值 和 标准 差 ， 因 此 我 们 可 以 看 看 是 否 有 差别 。 


plot conv weights(weights-weights convi) 


Mean: 0.00880, Stdev: 0.28635 
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10,000 次 优化 迭代 后 的 性 能 


现在 我 们 进行 了 10,000 次 优化 迭代 ， 并 且 ， 当 经 过 1000 次 迭代 验证 集 上 的 性 能 却 没 
有 提升 时 就 停止 优化 。 


星 号 * 代表 验证 集 上 的 分 类 准确 度 有 提升 。 


optimize(num_iterations=10000) 


Iter: 100, Train-Batch Accuracy: 84.4%, Validation Acc: 85. 
% * 

sd 200, Train-Batch Accuracy: 92.2%, Validation Acc: 9. 
op * 

HM 300, Train-Batch Accuracy: 95.3%, Validation Acc: 93. 
o, * 

id 400, Train-Batch Accuracy: 92.2%, Validation Acc: 94. 
% * 

ee 500, Train-Batch Accuracy: 98.4%, Validation Acc: 94. 
% * 

i 600, Train-Batch Accuracy: 93.8%, Validation Acc: 94. 
o 

m 700, Train-Batch Accuracy: 98.4%, Validation Acc: 95. 
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print_test_accuracy(show_example_errors=True, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 98.4% (9842 / 10000) 
Example errors: 


True: 4, Pred: 9 True: 4, Pred: 6 True: 2, Pred: 7 


N 
be 
S 


True: 2, Pred: 1 True: 5, Pred: 3 True: 6, Pred: 0 


os 


True: 8, Pred: 0 True: 8, Pred: 2 True: 2, Pred: 7 


Confusion Matrix: 


[[ 974 0 0 0 0 1 2 0 2 1] 
[ 01127 2 2 0 0 1 0 3 0] 
[ 4 4 1012 4 1 0 0 3 4 0] 
[ 0 0 1 1005 0 2 0 0 2 0] 
[ 1 0 1 0 961 0 2 0 3 14] 
l 2 0 1 6 © 880 1 0 1 1] 
[ 4 2 0 1 3 4 942 0 2 0] 
EE 1 8 6 1 0 © 994 1 16] 
[ 6 0 1 4 1 1 1 2 952 6] 
[ 3 3 0 3 2 2 0 0 1 995]] 


DY 


保存 & 恢复 
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现在 卷 积 权 重 是 经 过 优化 的 。 将 这 些 与 上 面 的 随机 权重 进行 对 比 。 它 们 看 起 来 基本 
相同 。 实 际 上 ， 一 开始 我 以 为 程序 有 bug， 因 为 优化 前 后 的 权重 看 起 来 差不多 。 


但 保存 图 像 ， 并 排 着 比较 它们 (你 可 以 右键 保存 ) 。 你 会 发 现 两 者 有 细微 的 不 同 。 
平均 值 和 标准 差 也 有 一 点 变化 ， 因 此 优化 过 的 权重 肯定 是 不 一 样 的 。 


plot_conv_weights(weights=weights_conv1) 


Mean: 0.02895, Stdev: 0.29949 





再 次 初始 化 变量 
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再 一 次 用 随机 值 来 初始 化 所 有 神经 网 络 变量 。 


init variables() 


这 意味 着 神经 网 络 又 是 完全 随机 地 对 图 片 进 行 分 类 ， 由 于 只 是 随机 的 猜测 所 以 分 类 
准确 率 很 低 。 


print test accuracy() 
Accuracy on Test-Set: 13.4% (1341 / 10000) 


卷 积 权重 看 起 来 应 该 与 上 面 的 不 同 。 


plot_conv_weights(weights=weights_conv1) 


Mean: -0.01086, Stdev: 0.28023 





恢复 最 好 的 变量 
重新 载 入 在 优化 过 程 中 保存 到 文件 的 所 有 变量 。 


saver.restore(sess=session, save_path=save_path) 


使 用 之 前 保存 的 那些 变量 ， 分 类 准确 率 又 提高 了 。 


注意 ， 准 确 率 与 之 前 相 比 可 能 会 有 细微 的 上 升 或 下 降 ， 这 是 由 于 文件 里 的 变量 是 用 
来 最 大 化 验证 集 上 的 分 类 准确 率 ， 但 在 保存 文件 之 后 ， 又 进行 了 1000 次 的 优化 和 迭 
代 ， 因 此 这 是 两 组 有 轻微 不 同 的 变量 的 结果 。 有 时 这 会 导致 测试 集 上 更 好 或 更 差 的 
表现 。 


print_test_accuracy(show_example_errors=True, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 98.3% (9826 / 10000) 
Example errors: 


> 
= 
“ 


True: 4, Pred: 2 True: 7, Pred: 3 True: 5, Pred: 3 


S 
$ 
" 


True: 6, Pred: 0 True: 8, Pred: 0 True: 7, Pred: 3 


~ 
~ 
- 


True: 8, Pred: 2 True: 7, Pred: 9 True: 1, Pred: 8 


Confusion Matrix: 


[[ 973 0 0 0 0 0 2 0 3 2] 
[ © 1124 2 2 0 0 3 0 4 0] 
[ 2 1 1027 0 0 0 0 1 1 o] 
[ 0 0 1 1005 0 2 0 0 2 9] 
[ 0 0 3 © 968 0 1 0 3 7] 
[ 2 0 1 9 0 871 3 0 3 3] 
[ 4 2 1 0 3 3 939 0 6 0] 
a g 09 m 2 0 0 972 2 18] 
[ 6 0 3 5 1 0 1 2 951 5] 
[ 3 3 0 1 4 1 0 0 1 996]] 
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卷 积 权 重 也 与 之 前 显示 的 图 几乎 相同 ， 同 样 ， 由 于 多 做 了 1000 次 优化 迭代 ， 二 者 并 
非 完全 一 样 。 


plot_conv_weights(weights=weights_conv1) 


Mean: 0.02792, Stdev: 0.29822 





X AlTensorFlow if 


现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 
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# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# session.close() 


E 


Ex 


4 


这 篇 教程 描述 了 在 TensorFlow 中 如 何 保存 并 恢复 神经 网 络 的 变量 。 它 有 许多 用 处 。 
比如 ， 当 你 用 神经 网 络 来 识别 图 像 的 时 候 ， 只 需要 训练 网 络 一 次 ， 然 后 可 以 在 其 他 
电脑 上 完成 开发 工作 。 


checkpoint 的 另 一 个 用 处 是 ， 如 果 你 有 一 个 非常 大 的 神经 网 络 和 数据 集 ， 就 可 能 会 
在 中 间 保 存 一 些 checkpoints 来 避免 电脑 死机 ， 这 样 ， 你 就 可 以 在 最 近 的 checkpoint 
开始 优化 而 不 是 重头 开始 。 


本 教程 也 展示 了 如 何 用 验证 集 来 进行 所 谓 的 Early Stopping， 如 果 没 有 降低 验证 错 
误 优 化 就 会 终止 。 这 在 神经 网 络 出 现 过 拟 合 以 及 开始 学 习 训 练 集中 的 噪声 时 很 有 
用 ; 不 过 这 在 本 教程 的 神经 网 络 和 MNIST 数 据 集中 并 不 是 什么 大 问题 。 


还 有 一 个 有 趣 的 现象 ， 最 优化 时 卷 积 权 重 〈 或 者 叫 滤波 ) 的 变化 很 小 ， 即 使 网 络 的 
性 能 从 随机 猜测 提高 到 近乎 完美 的 分 类 。 奇 怪 的 是 随机 的 权重 好 像 已 经 足够 好 了 。 
你 认为 为 什么 会 有 这 种 现象 ? 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 在 经 过 1000 次 迭代 而 性 能 没有 提升 时 ， 优 化 就 终止 了 。 这 样 够 吗 ? 你 能 想 出 一 
个 更 好 地 进行 Early Stopping 的 方法 么 ? 试 着 实现 它 。 

e 如 果 checkpoint 文 件 已 经 存在 了 ， 载 入 它 而 不 是 做 优化 。 

e 每 100 次 优化 迭代 保存 一 次 checkpoint。 通 
过 saver.latest checkpoint() 取 回 最 新 的 (保存 点 ) 。 为 什么 保存 多 个 
checkpoints 而 不 是 只 保存 最 近 的 一 个 ? 

e 试 着 改变 神经 网 络 ， 比 如 添加 其 他 层 。 当 你 从 不 同 的 网 络 中 重新 载 入 变量 会 出 
现 什 么 问题 ? 

e 用 plot conv weights() 函数 在 优化 前 后 画 出 第 二 个 卷 积 层 的 权重 。 它 们 几 
隆 相 同 的 么 了? 

。 你 认为 优化 过 的 着 积 权重 为 什么 与 随机 初始 化 的 (权重 ) 几乎 相同 ? 

。 不 看 源码 ， 自 己 重 写 程序 。 

e 向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 
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集成 学 习 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻 译 thrillerist/Github 


简介 


这 篇 教程 介绍 了 卷 积 神经 网 络 的 集成 (ensemble) 。 我 们 使 用 多 个 神经 网 络 ， 然 后 
取 它们 输出 的 平均 ， 而 不 是 只 用 一 个 。 


最 终 也 是 在 MINIST 数 据 集 上 识别 手写 数字 。ensemble 稍 微 地 提升 了 测试 集 上 的 分 
类 准确 率 ， 但 差异 很 小 ， 也 可 能 是 随机 出 现 的 。 此 外 ，ensemble 误 分 类 的 一 些 图 像 
在 单独 网 络 上 却 是 正确 分 类 的 。 


本 文 基 于 上 一 篇 教程 ， 你 需要 了 解 基本 的 TensorFlow 和 附加 包 Pretty Tensor。 其 中 
大 量 代码 和 文字 与 之 前 教程 相似 ， 如 果 你 已 经 看 过 就 可 以 快速 地 浏览 本 文 。 


流程 图 


下 面 的 图 表 直 接 显示 了 之 后 实现 的 卷 积 神经 网 络 中 数据 的 传递 。 网 络 有 两 个 卷 
和 两 个 全 连接 层 ， 最 后 一 层 是 用 来 给 输入 图 像 分 类 的 。 关 于 网 络 和 卷 积 的 更 多 细 
描述 见 教程 #02 > 


本 教程 实现 了 5 个 这 样 的 神经 网 络 的 集成 ， 每 个 网 络 的 结构 相同 但 权重 以 及 其 他 变 
量 不 同 。 


from IPython.display import Image 
Image('images/02 network flowchart.png') 


Convolutional Layer 2 Fully-Connected 
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%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 
import time 

from datetime import timedelta 

import math 

import os 


# Use PrettyTensor to simplify Neural Network construction. 
import prettytensor as pt 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version . 


'0.12.0-rc0' 


PrettyTensor 版 本 : 


pt. version . 


"027.1 


载 入 数据 
MNIST 数 据 集 大 约 12MB， 如 果 没 在 给 定 路 径 中 找到 就 会 自动 下 载 。 


from tensorflow.examples.tutorials.mnist import input_data 
data = input_data.read_data_sets('data/MNIST/', one_hot=True) 


Extracting data/MNIST/train-images-idx3-ubyte.gz 
Extracting data/MNIST/train-labels-idx1-ubyte.gz 
Extracting data/MNIST/ti10k-images-idx3-ubyte.gz 
Extracting data/MNIST/t10k-labels-idx1-ubyte.gz 


现在 已 经 载 入 了 MNIST 数 据 集 ， 它 由 70,000 张 图 像 和 对 应 的 标签 〈 比 如 图 像 的 类 
别 ) 组 成 。 数 据 集 分 成 三 份 互相 独立 的 子 集 ， 但 后 面 我 们 会 生成 随机 的 训练 集 。 


print("Size of:") 

print("- Training-set:\t\t{}".format(len(data.train.labels))) 
print("- Test-set:\t\t{}".format(len(data.test.labels))) 
print("- Validation-set:\t{}".format(len(data.validation.labels) 
)) 


Size of: 

- Training-set: 55000 

- Test-set: 10000 

- Validation-set: 5000 
类 别 数字 


类 型 标签 使 用 One-Hot 编 码 ， 这 意外 每 个 标签 是 长 为 10 的 向 量 ， 除 了 一 个 元 素 之 
外 ， 其 他 的 都 为 零 。 这 个 元 素 的 索引 就 是 类 别 的 数字 ， 即 相 应 图 片 中 画 的 数字 。 我 
们 也 需 要 测试 集 和 验证 集 的 整形 类 别 数字 ， 在 这 里 计算 。 


data.test.cls = np.argmax(data.test.labels, axis=1) 
data.validation.cls = np.argmax(data.validation.labels, axis=1) 


创建 随机 训练 集 的 帮助 函数 


a 会 在 随机 选择 的 训练 集 上 训练 5 个 不 同 的 神经 网 络 。 首 先 ， 将 原始 训练 集 和 
给 证 集合 并 到 大 的 一 个 数组 中 。 图 像 和 标签 都 要 进行 此 操作 。 


combined_images = np.concatenate([data.train.images, data.valida 
tion.images], axis=0) 
combined_labels = np.concatenate([data.train.labels, data.valida 
tion.labels], axis=0) 


检查 合并 后 的 数组 大 小 是 否 正确 。 


print(combined_images.shape) 
print(combined_labels.shape) 


(60000, 784) 
(60000, 10) 


合并 数据 集 的 大 小 。 


combined size = len(combined images) 
combined size 


60000 


定义 每 个 神经 网 络 使 用 的 训练 集 的 大 小 。 你 可 以 试 着 改变 大 小 。 


train_size = int(0.8 * combined_size) 
train_size 


48000 


在 训练 时 并 没有 使 用 验证 集 ， 但 它 的 大 小 如 下 。 


validation size = combined size - train size 
validation size 


12000 
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def random training set(): 

# Create a randomized index into the full / combined trainin 
g-set. 

idx = np.random.permutation(combined_size) 


# Split the random index into training- and validation-sets. 
idx train = idx[0:train_size] 
idx validation = idx[train size:] 


# Select the images and labels for the new training-set. 
x train combined images[idx train, :] 
y train combined labels[idx train, :] 


# Select the images and labels for the new validation-set. 
x validation - combined images[idx validation, :] 
y validation - combined labels[idx validation, :] 


# Return the new training- and validation-sets. 
return x train, y train, x validation, y validation 


数据 维度 


在 下 面 的 源码 中 ， > 有 很 多 地 方 用 到 了 数据 维度 。 它 们 只 在 一 个 地 方 定义 ， 因 此 我 们 
可 以 在 代码 中 使 用 这 些 变量 而 不 是 直接 写 数 字 。 


# We know that MNIST images are 28 pixels in each dimension. 
img_size = 28 


# Images are stored in one-dimensional arrays of this length. 
img_size_flat = img_size * img_size 


# Tuple with height and width of images used to reshape arrays. 
img_shape = (img_size, img_size) 


# Number of colour channels for the images: 1 channel for gray-s 
cale. 
num_channels = 1 


# Number of classes, one class for each of 10 digits. 
num_classes = 10 


用 来 绘制 图 片 的 帮助 函数 


这 个 函数 用 来 在 3X3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图 像 下 面 写 出 真实 类 别 和 预测 
类 别 o 


def plot_images(images, # Images to plot, 2-da 
rray. 

cls_true, # True class-no for ima 
ges. 

ensemble cls pred-None, # Ensemble predicted cl 
ass-no. 

best_cls_pred=None): # Best-net predicted cl 
ass-no. 

assert len(images) == len(cls_true) 


# Create figure with 3x3 sub-plots. 
fig, axes = plt.subplots(3, 3) 


# Adjust vertical spacing if we need to print ensemble and b 
est-net. 
if ensemble_cls_pred is None: 
hspace 9.9 
else: 
hspace - 1.0 
fig.subplots adjust(hspace-hspace, wspace=0.3) 


# For each of the sub-plots. 
for i, ax in enumerate(axes.flat): 


4 There may not be enough images for all sub-plots. 
if i « len(images): 
# Plot image. 
ax.imshow(images[i].reshape(img shape), cmap='binary' 


# Show true and predicted classes. 
if ensemble cls pred is None: 
xlabel = "True: {0}".format(cls_true[i]) 
else: 
msg = "True: {e}\nEnsemble: {1}\nBest Net: {2}" 
xlabel = msg. format(cls_true[i], 
ensemble cls pred[i], 
best cls pred[i]) 


# Show the classes as the label on the x-axis. 
ax.set_xlabel(xlabel) 


# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show() 
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绘制 几 张 图 像 来 看 看 数据 是 否 正确 
# Get the first images from the test-set. 
images = data.test.images[0:9] 


# Get the true classes for those images. 
cls_true = data.test.cls[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true) 
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TensorFlow © 


TensorFlow 的 全 部 目的 就 是 使 用 一 个 称 之 为 计算 图 (computational graph) 的 东 
西 ， 它 会 比 直接 在 Python 中 进行 相同 计算 量 要 高 效 得 多 。TensorFlow 比 Numpy 更 高 
效 ， 因 为 TensorFlow 了 解 整个 需要 运行 的 计算 图 ， 然 而 Numpy 只 知道 某 个 时 间 点 上 
唯一 的 数学 运算 。 


TensorFlow 也 能 够 自动 地 计算 需要 优化 的 变量 的 梯度 ， 使 得 模型 有 更 好 的 表现 。 这 
是 由 于 图 是 简单 数学 表达 式 的 结合 ， 因 此 整个 图 的 梯度 可 以 用 链 式 法 则 推导 出 来 。 
TensorFlow 还 能 利用 多 核 CPU 和 GPU，Google 也 为 TensorFlow 制 造 了 称 为 
TPUs (Tensor Processing Units) 的 特殊 芯片 ， 它 比 GPU 更 快 。 
一 个 TensorFlow 图 由 下 面 几 个 部 分 组 成 ， 后 面 会 详细 描述 : 

e 占 位 符 变量 (Placeholder) 用 来 改变 图 的 输入 。 

e 模型 变量 (Model) 将 会 被 优化 ， 使 得 模型 表现 得 更 好 。 

e 模型 本 质 上 就 是 一 些 数学 函数 ， 它 根据 Placeholder 和 模型 的 输入 变量 来 计算 一 


些 输出 。 
e 一 个 cost 度 量 用 来 指导 变量 的 优化 。 
e 一 个 优化 策略 会 更 新 模型 的 变量 。 


另外 ，TensorFlow 图 也 包含 了 一 些 调 试 状态 ， 比 如 用 TensorBoard 打 印 log 数 据 ， 本 
教程 不 涉及 这 些 。 


占 位 符 (Placeholder) 变量 


Placeholder 是 作为 图 的 输入 ， 我 们 每 次 运行 图 的 时 候 都 可 能 改变 它们 。 将 这 个 过 程 
称 为 feeding placeholder 变 量 ， 后 面 将 会 描述 这 个 。 


首先 我 们 为 输入 图 像 定 义 placeholder 变 量 。 这 让 我 们 可 以 改变 输入 到 TensorFlow 图 
中 的 图 像 。 这 也 是 一 个 张 量 (tensor) ， 代 表 一 个 多 维 向量 或 矩阵 。 数 据 类 型 设置 

为 float32， 形 状 设 为 [None, img size flat] ， None 代表 tensor 可 能 保存 着 任 
意 数量 的 图 像 ， 每 张 图 象 是 一 个 长 度 为 img size flat 的 向 量 。 


x = tf.placeholder(tf.float32, shape=[None, img_size flat], name= 
de ) 
EEO M 
BRETT x 被 编码 为 4 维 张 量 ， 因 此 我 们 需要 将 它 的 形状 转换 
至 [num_images, img height, img width, num_channels] 。 注 


意 img_height == img_width == img_size ， 如 果 第 一 维 的 大 小 设 为 -1， 
num images 的 大 小 也 会 被 自动 推导 出 来 。 转 换 运算 如 下 : 


x image = tf.reshape(x, [-1, img size, img size, num channels]) 


接 下 来 我 们 为 输入 变量 x Phy AAN aE g A EAR 3 placeholder € € » FF 
的 形状 是 [None, num classes] ， 这 代表 着 它 保存 了 任意 数量 的 标签 ， 每 个 标签 
是 长 度 为 num classes 的 向 量 ， 本 例 中 长 度 为 10。 


g 


y true = tf.placeholder(tf.float32, shape=[None, 10], name='y_tr 
ue') 


我 们 也 可 以 为 class-number 提 供 一 个 placeholder， 但 这 里 用 argmax 来 计算 它 。 这 
里 只 是 TensorFlow 中 的 一 些 操作 ， 没 有 执行 什么 运算 。 


y true cls = tf.argmax(y_true, dimension=1) 


神经 网 络 


这 一 节 用 PrettyTensor 实 现 卷 积 神经 网 络 ， 这 要 比 直接 在 TensorFlow 中 实现 来 得 简 
单 ， 详 见 教程 #03。 


基本 思想 就 是 用 一 个 Pretty Tensor object 封 装 输入 张 量 x_image ， 它 有 一 个 添加 
新 卷 积 层 的 帮助 函数 ， 以 此 来 创建 整个 神经 网 络 。Pretty Tensor 负 责 变量 分 配 等 


x_pretty = pt.wrap(x_image) 


现在 我 们 已 经 将 输入 图 像 装 到 一 个 PrettyTensor 的 object 中 ， 再 用 几 行 代码 就 可 以 添 
加 卷 积 层 和 全 连接 层 。 


注意 ， 在 with 代码 块 中 ， pt.defaults_scope(activation_fn=tf.nn.relu) 
把 activation fn-tf.nn.relu 当 作 每 个 的 层 参数 ， 因 此 这 些 层 都 用 到 了 
Rectified Linear Units (ReLU) 。 defaults scope 使 我 们 能 更 方便 地 修改 所 有 层 
的 参数 。 


with pt.defaults_scope(activation_fn=tf.nn.relu): 
y_pred, loss = x_pretty.\ 

conv2d(kernel=5, depth=16, name='layer_convi').\ 
max_pool(kernel=2, stride=2).\ 
conv2d(kernel=5, depth=36, name='layer_conv2').\ 
max_pool(kernel=2, stride=2).\ 
flatten().\ 
fully_connected(size=128, name='layer_fci').\ 
softmax_classifier(num_classes=num_classes, labels=y_tru 

e) 


优化 方法 
PrettyTensor 给 我 们 提供 了 预测 类 型 标签 ( y pred ) 以 及 一 个 需要 最 小 化 的 损失 度 
量 ， 用 来 提升 神经 网 络 分 类 图 片 的 能 力 。 


PrettyTensor 的 文档 并 没有 说 明 它 的 损失 度量 是 用 cross-entropy 还 是 其 他 的 。 但 现 
在 我 们 用 AdamOptimizer 来 最 小 化 损失 。 


优化 过 程 并 不 是 在 这 里 执行 。 实 际 上 ， 还 没 计算 任何 东西 ， 我 们 只 是 往 TensorFlow 
图 中 添加 了 优化 器 ， 以 便 后 续 操作 。 


optimizer = tf.train.AdamOptimizer(learning rate-ie-4).minimize( 
loss) 


性 能 度量 


我 们 需要 另外 一 些 性 能 度量 ， 来 向 用 户 展 示 这 个 过 程 。 


首先 我 们 从 神经 网 络 输出 的 y pred 中 计算 出 预测 的 类 别 ， 它 是 一 个 包含 10 个 元 素 
的 向 量 。 类 别 数 字 是 最 大 元 素 的 索引 。 


y pred cls = tf.argmax(y pred, dimension=1 ) 


然后 创 个 布尔 向 量 ， 用 来 告诉 我 们 每 张 图 片 的 丨 实 类 别 是 否 与 预测 类 别 相 同 。 


correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


上 面 的 计算 先 将 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 
成 1， 然 后 计算 这 些 值 的 平均 娄 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


Saver 


为 了 保存 神经 网 络 的 变量 ， 我 们 创建 一 个 称 为 Saver-object 的 对 象 ， 它 用 来 保存 及 
恢复 TensorFlow 图 的 所 有 变量 。 在 这 里 并 未 保存 什么 东西 ， (保存 操作 ) 在 后 面 
的 optimize() 函数 中 完成 。 


注意 ， 如 果 在 ensemble 中 有 超过 100 个 的 神经 网 络 ， 你 需要 根据 情况 来 增 
加 max_to_keep ° 


saver = tf.train.Saver(max_to_keep=100) 
这 是 用 来 保存 或 恢复 数据 的 文件 来 。 

save dir = 'checkpoints/' 
如 果 文 件 夹 不 存在 则 创建 。 


if not os.path.exists(save_dir): 
os.makedirs(save_dir) 


个 函数 根据 输入 的 网 络 编号 返回 数据 文件 的 保存 路 径 。 


def get save path(net number): 
return save dir + 'network' + str(net number) 


运行 TensorFlow 


创建 TensorFlow 会 话 (session) 


一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 图 。 


session = tf.Session() 


初始 化 变量 


变量 weights 和 biases 在 优化 之 前 需要 先进 行 初始 化 。 我 们 写 一 个 简单 的 封装 
函数 ， 后 面 会 再 次 调用 。 


def init_variables(): 
session.run(tf.initialize_all_variables()) 


创建 随机 训练 batch 的 帮助 函数 


a 集中 有 上 千张 图 。 用 这 些 图 像 计 算 模 型 的 梯度 会 花 很 多 时 间 。 因 此 ， 它 在 优 
器 的 每 次 迭代 里 只 用 到 了 一 小 部 分 的 图 像 。 


如 果 内 存 耗 尽 导 致电 脑 死机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 数量 ， 但 同时 可 能 还 
需要 更 优化 的 迭代 。 


train batch size = 64 


函数 根据 给 定 的 大 小 挑选 一 个 随机 的 training-batch 。 


def random_batch(x_train, y_train): 
# Total number of images in the training-set. 
num_images = len(x_train) 


# Create a random index into the training-set. 

idx = np.random.choice(num_images, 
size=train_batch_size, 
replace=False) 


# Use the random index to select random images and labels. 
x batch = x_train[idx, :] # Images. 
y_batch = y_train[idx, :] # Labels. 


# Return the batch. 
return x_batch, y_batch 


执行 优化 迭代 的 帮助 函数 


函数 用 来 执行 一 定数 量 的 优化 迭代 ， 以 此 来 逐渐 改善 网 络 层 的 变量 。 在 每 次 迭代 
中 ， 会 从 训练 集中 选择 新 的 一 批 数 据 ， 然 后 TensorFlow 在 这 些 训 练 样本 上 执行 优 
化 。 每 100 次 和 迭代 会 打印 出 (信息 ) > 
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def optimize(num_iterations, x_train, y_train): 
# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(num_iterations): 


# Get a batch of training examples. 

# x_batch now holds a batch of images and 

# y_true_batch are the true labels for those images. 
x_batch, y_true_batch = random_batch(x_train, y_train) 


# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed_dict_train = {x: x_batch, 

y_true: y_true_batch} 


# Run the optimizer using this batch of training data. 
# TensorFlow assigns the variables in feed_dict_train 
# to the placeholder variables and then runs the optimiz 


er. 
session.run(optimizer, feed_dict=feed_dict_train) 
# Print status every 100 iterations and after last itera 
tion. 
if i % 100 == 
# Calculate the accuracy on the training-batch. 
acc = session.run(accuracy, feed_dict=feed_dict_trai 
n) 


# Status-message for printing. 
msg = "Optimization Iteration: {0:>6}, Training Batc 
nm Accuracy: {1:>6, 1%)" 


# Print it. 
print(msg.format(i + 1, acc)) 


# Ending time. 
end_time = time.time() 


# Difference between start and end-times. 
time_dif = end_time - start_time 


# Print the time-usage. 
print("Time usage: " + str(timedelta(seconds=int(round(time_ 


dif))))) 


创建 神经 网 络 的 集成 (ensemble) 


神经 网 络 ensemble 的 数量 
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num_networks = 5 


每 个 神经 网 络 优 化 迭代 的 次 数 。 


num_iterations = 10000 


创建 神经 网 络 的 ensemble。 所 有 网 络 都 使 用 上 面 定 义 的 那个 TensorFlow 图 。 每 个 


网 络 的 TensorFlow 权 重 和 变量 都 用 随机 值 初 始 化 ， 然 后 进行 优化 。 接 着 将 变量 保存 
到 磁盘 中 以 便 之 后 重 载 使 用 。 
如 果 你 只 是 想 重 新 运行 Notebook 来 对 结 不 同 的 分 析 ， 可 以 跳 过 这 一 步 。 
if True: 
# For each of the neural networks. 


for i in range(num_networks): 
print("Neural network: {0}".format(i)) 
4 Create a random the validation-se 


training-set. Ignore 


x train, y train, , _ = random training set() 
# Initialize the variables of the TensorFlow graph. 


session.run(tf.global variables initializer()) 


+ Optimize the variables using this training-set. 
optimize(num iterations-num iterations, 

X train-x train, 

y train-y train) 


variables to disk. 
save path-get save path(i)) 


# Save the optimized 
saver.save(sess-session, 


# Print newline. 


print() 


Neural network: 0 


Optimization Iteration: 1, Training Batch Accuracy: 6.2% 
Optimization Iteration: 101, Training Batch Accuracy: 87.5% 
Optimization Iteration: 201, Training Batch Accuracy: 92.2% 
Optimization Iteration: 301, Training Batch Accuracy: 92.2% 
Optimization Iteration: 401, Training Batch Accuracy: 98.4% 
Optimization Iteration: 501, Training Batch Accuracy: 95.3% 
Optimization Iteration: 601, Training Batch Accuracy: 95.3% 
Optimization Iteration: 701, Training Batch Accuracy: 96.9% 
Optimization Iteration: 801, Training Batch Accuracy: 96.9% 
Optimization Iteration: 901, Training Batch Accuracy: 98.4% 
Optimization Iteration: 1001, Training Batch Accuracy: 95.3% 
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Time usage: 0:00:39 
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Optimization Iteration: 7601, Training Batch Accuracy: 100.0% 
Optimization Iteration: 7701, Training Batch Accuracy: 100.0% 
Optimization Iteration: 7801, Training Batch Accuracy: 100.0% 
Optimization Iteration: 7901, Training Batch Accuracy: 93.8% 
Optimization Iteration: 8001, Training Batch Accuracy: 100.0% 
Optimization Iteration: 8101, Training Batch Accuracy: 98.4% 
Optimization Iteration: 8201, Training Batch Accuracy: 100.0% 
Optimization Iteration: 8301, Training Batch Accuracy: 100.0% 
Optimization Iteration: 8401, Training Batch Accuracy: 100.0% 
Optimization Iteration: 8501, Training Batch Accuracy: 98.4% 
Optimization Iteration: 8601, Training Batch Accuracy: 100.0% 
Optimization Iteration: 8701, Training Batch Accuracy: 98.4% 
Optimization Iteration: 8801, Training Batch Accuracy: 100.0% 
Optimization Iteration: 8901, Training Batch Accuracy: 98.4% 
Optimization Iteration: 9001, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9101, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9201, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9301, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9401, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9501, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9601, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9701, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9801, Training Batch Accuracy: 100.0% 
Optimization Iteration: 9901, Training Batch Accuracy: 98.4% 


Time usage: 0:00:39 


计算 并 且 预 测 分 类 的 帮助 函数 


这 个 函数 计算 了 图 像 的 预测 标签 ， 对 每 张 图 像 来 说 ， 函 数 计算 了 一 个 长 度 为 10 的 向 
量 ， 向 量 显 示 了 图 像 的 类 别 。 


计算 分 批 完 成 ， 否 则 将 占用 太 多 内 存 。 如 果 电 脑 死 机 了 ， 你 需要 降低 batch-size 。 


集成 学 习 


# Split the data-set in batches of this size to limit RAM usage. 
batch_size = 256 


def predict_labels(images): 
# Number of images. 
num_images = len(images) 


# Allocate an array for the predicted labels which 

# will be calculated in batches and filled into this array. 

pred_labels = np.zeros(shape=(num_images, num_classes), 
dtype=np. float ) 


# Now calculate the predicted labels for the batches. 
# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


S. 
# The starting index for the next batch is denoted i. 
i=0 
while i < num_images: 
# The ending index for the next batch is denoted j. 
j = min(i + batch size, num_images) 
# Create a feed-dict with the images between index i and 
je 
feed dict = (x: images[i:j, :]} 
# Calculate the predicted labels using TensorFlow. 
pred_labels[i:j] = session.run(y_pred, feed_dict=feed_di 
ct) 


# Set the start-index for the next batch to the 
# end-index of the current batch. 
i=j 


return pred_labels 


计算 一 个 布尔 值 向 量 ， 代 表 图 像 的 预测 类 型 是 否 正 确 。 


142 


def correct_prediction(images, labels, cls_true): 
# Calculate the predicted labels. 
pred_labels = predict_labels(images=images) 


# Calculate the predicted class-number for each image. 
cls_pred = np.argmax(pred_labels, axis=1) 


# Create a boolean array whether each image is correctly cla 
ssified. 
correct = (cls_true == cls_pred) 


return correct 


计算 一 个 布尔 数组 ， 代 表 测 试 集 中 图 像 是 否 分 类 正确 。 


def test correct(): 
return correct prediction(images - data.test.images, 
labels - data.test.labels, 
cls true - data.test.cls) 


计算 一 个 布尔 数组 ， 代 表 验 证 集中 图 像 是 否 分 类 正确 。 


def validation_correct(): 
return correct_prediction(images = data.validation.images, 
labels = data.validation.labels, 
cls_true = data.validation.cls) 


计算 分 类 准确 率 的 帮助 函数 


这 个 函数 计算 了 给 定 布尔 数组 的 分 类 准确 率 ， 布 尔 数组 表示 每 张 图 像 是 否 被 正确 分 
类 。 比 如 ， 
cls_accuracy([True, True, False, False, False]) = 2/5 = 0.4 ° 


def classification_accuracy(correct): 
# When averaging a boolean array, False means © and True mea 
DS ai 
# So we are calculating: number of True / len(correct) which 
is 
# the same as the classification accuracy. 
return correct.mean() 


计算 测试 集 的 分 类 准确 率 。 


def test_accuracy(): 


# Get the array of booleans whether the classifications are 
correct 


# for the test-set. 
correct = test_correct() 


# Calculate the classification accuracy and return it. 
return classification accuracy(correct) 


计算 原始 验证 集 上 的 分 类 准确 率 。 


def validation_accuracy(): 

# Get the array of booleans whether the classifications are 
correct 

# for the validation-set. 

correct = validation_correct() 


# Calculate the classification accuracy and return it. 
return classification_accuracy(correct) 


结果 与 分 析 


函数 用 来 为 ensemble 中 的 所 有 神经 网 络 计 算 预 测 标签 。 后 面 会 将 这 些 标签 合并 起 
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def ensemble_predictions(): 

# Empty list of predicted labels for each of the neural netw 
orks. 

pred_labels = [] 


# Classification accuracy on the test-set for each network. 
test_accuracies = [] 


# Classification accuracy on the validation-set for each net 
work. 
val_accuracies = [] 


# For each neural network in the ensemble. 
for i in range(num_networks): 
# Reload the variables into the TensorFlow graph. 
saver .restore(sess=session, save path-get save path(i)) 


# Calculate the classification accuracy on the test-set. 
test acc = test accuracy() 


4 Append the classification accuracy to the list. 
test accuracies.append(test acc) 


4 Calculate the classification accuracy on the validatio 
N sel 
val acc = validation accuracy() 


4 Append the classification accuracy to the list. 
val accuracies.append(val acc) 


# Print status message. 

msg = "Network: (0), Accuracy on Validation-Set: {1:.4f} 
, lest-Set: {2:.4f}" 

print(msg.format(i, val acc, test acc)) 


4 Calculate the predicted labels for the images in the t 
est-set. 

4 This is already calculated in test accuracy() above but 

# it is re-calculated here to keep the code a bit simple 


pred - predict labels(images-data.test.images) 


4 Append the predicted labels to the list. 
pred labels.append(pred) 


return np.array(pred labels), \ 


np.array(test accuracies), \ 
np.array(val accuracies) 


Hl -— ———————————— je) 
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pred_labels, test_accuracies, val_accuracies = ensemble_predicti 
ons() 


Network: ©, Accuracy on Validation-Set: 0.9948, Test-Set: 0.9893 
Network: 1, Accuracy on Validation-Set: 0.9936, Test-Set: 0.9880 
Network: 2, Accuracy on Validation-Set: 0.9958, Test-Set: 0.9893 
Network: 3, Accuracy on Validation-Set: 0.9938, Test-Set: 0.9889 
Network: 4, Accuracy on Validation-Set: 0.9938, Test-Set: 0.9892 


总 结 ensemble 中 的 神经 网 络 在 测试 集 上 的 分 类 准确 率 。 


print("Mean test-set accuracy: {0:.4f}".format(np.mean(test_accu 
racies))) 
print ("Min test-set accuracy: {0:.4f}".format(np.min(test_accur 
acies))) 
print("Max test-set accuracy: {0:.4f}".format(np.max(test_accur 
acies))) 


Mean test-set accuracy: 0.9889 
Min test-set accuracy: 0.9880 
Max test-set accuracy: 0.9893 


ensemble 的 预测 标签 是 3 维 的 数组 ， 第 一 维 是 神经 网 络 数 量 ， 第 二 维 是 图 像 数 量 ， 
第 三 维 是 分 类 向 量 。 


pred_labels.shape 


(5, 10000, 10) 


ensemble f 7| 

有 几 种 不 同 的 方法 来 计算 ensemble 的 预测 标签 。 一 种 是 计算 每 个 神经 网 络 的 预测 类 
别 数 字 ， 然 后 选择 得 票 最 多 的 那个 类 别 。 但 根据 分 类 的 类 别 数 量 ， 这 种 方法 需要 大 
量 的 神经 网 络 。 


这 里 用 的 方法 是 取 ensemble 中 所 有 预测 标签 的 平均 。 这 个 计算 很 简单 ， 而 且 集成 种 
不 需要 大 量 的 神经 网 络 。 


ensemble_pred_labels = np.mean(pred_labels, axis=0) 
ensemble_pred_labels.shape 


(10000, 10) 


取 标 签 中 最 大 数字 的 索引 作为 ensemble 的 预测 类 别 数字 ， 这 通常 用 argmax 来 计 


ensemble_cls_pred = np.argmax(ensemble_pred_labels, axis=1) 
ensemble_cls_pred.shape 


(10000, ) 
布尔 数组 表示 测试 集中 的 图 像 是 否 被 神经 网 络 的 ensemble 正 确 分 类 。 
ensemble_correct = (ensemble_cls_pred == data.test.cls) 
对 布尔 数组 取 反 ， 因 此 我 们 可 以 用 它 来 查找 误 分 类 的 图 像 。 
ensemble incorrect = np.logical not(ensemble correct) 
最 佳 的 神经 网 络 


现在 我 们 找 出 在 测试 集 上 表现 最 佳 的 单个 神经 网 络 。 
首先 列 出 ensemble 中 所 有 神经 网 络 在 测试 集 上 的 分 类 准确 率 。 


test_accuracies 


array([ 0.9893, 0.988 , 0.9893, 0.9889, 0.9892]) 


准确 率 最 高 的 神经 网 络 索引 。 


best net = np.argmax(test accuracies) 
best net 


最 佳 神 经 网 络 在 测试 集 上 的 分 类 准确 率 。 


test accuracies[best net] 


0.98929999999999996 
最 佳 神经 网 络 的 预测 标签 。 

best_net_pred_labels = pred_labels[best_net, :, :] 
预测 的 类 别 数字 。 

best_net_cls_pred = np.argmax(best_net_pred_labels, axis=1) 
最 佳 神经 网 络 在 测试 集 上 是 否 正 确 分 类 图 像 的 布尔 数组 。 

best_net_correct = (best_net_cls_pred == data.test.cls) 
图 像 是 否 被 误 分 类 的 布尔 数组 。 

best_net_incorrect = np.logical_not(best_net_correct) 
ensemble 与 最 佳 网 络 的 比较 
测试 集中 被 ensemble 正 确 分 类 的 图 像 数 量 。 


np.sum(ensemble_correct) 


9916 

测试 集中 被 最 佳 网 络 正确 分 类 的 图 像 数量 。 
np.sum(best_net_correct) 
9893 


布尔 数组 表示 测试 集中 每 张 图 像 是 否 “被 ensemble 正 确 分 类 且 被 最 佳 网 络 误 分 类 ”。 


ensemble_better = np.logical_and(best_net_incorrect, 
ensemble correct) 


测试 集 上 ensemble 比 最 佳 网 络 表 现 更 好 的 图 像 数量 : 


ensemble better.sum() 


39 


布尔 数组 表示 测试 集中 每 张 图 像 是 否 "被 最 住 网 络 正确 分 类 且 被 ensemble 误 分 类 ”。 


best_net_better = np.logical_and(best_net_correct, 
ensemble incorrect) 


测试 集 上 最 佳 网 络 比 ensemble 表 现 更 好 的 图 像 数量 : 


best_net_better.sum() 


16 


绘制 以 及 打印 对 比 的 帮助 函数 
函数 用 来 绘制 测试 集中 的 图 像 ， 以 及 它们 的 站 实 类 别 与 预测 类 别 。 


def plot_images_comparison(idx): 
plot_images(images=data.test.images[idx, :], 
cls_true=data.test.cls[idx], 
ensemble_cls_pred=ensemble_cls_pred[idx], 
best cls pred-best net cls pred[idx]) 


打印 预测 标签 的 函数 。 


def print_labels(labels, idx, num=1): 
# Select the relevant labels based on idx. 
labels = labels[idx, :] 


# Select the first num labels. 
labels = labels[O:num, :] 


# Round numbers to 2 decimal points so they are easier to re 
ad. 
labels_rounded = np.round(labels, 2) 


# Print the rounded labels. 
print(labels_rounded) 


Function for printing the predicted labels for the ensemble of neural networks. 


打印 神经 网 络 ensemble 预 测 标 签 的 函数 。 


def print_labels_ensemble(idx, **kwargs): 
print_labels(labels=ensemble_pred_labels, idx=idx, **kwargs) 


打印 单个 网 络 预测 标签 的 函数 。 


def print_labels_best_net(idx, **kwargs): 
print_labels(labels=best_net_pred_labels, idx=idx, **kwargs) 


打印 ensemble 中 所 有 神经 网 络 预测 标签 的 函数 。 只 打印 第 一 张 图 像 的 标签 。 


def print labels all nets(idx): 
for i in range(num networks): 
print labels(labels-pred labels[i, :, :], idx-idx, num=1 


样本 : ensemble 比 最 住 网 络 好 
绘制 出 那些 被 集成 网 络 正确 分 类 ， 且 被 最 佳 网 络 误 分 类 的 样本 © 


plot images comparison(idx-ensemble better) 


DS 


True: 3 True: 4 True: 5 
Ensemble: 3 Ensemble: 4 Ensemble: 5 
Best Net: 8 Best Net: 2 Best Net: 3 

True: 5 True: 3 True: 6 
Ensemble: 5 Ensemble: 3 Ensemble: 6 
Best Net: 8 Best Net: 5 Best Net: 8 

True: 9 True: 7 True: 2 
Ensemble: 9 Ensemble: 7 Ensemble: 2 
Best Net: 5 Best Net: 2 Best Net: 3 


ensemble 对 第 一 张 图 像 (左上 ) 的 预测 标签 : 


print labels ensemble(idx-ensemble better, 


le. 0 980. 0.76 0. 0. 9. 
最 佳 网 络 对 第 一 张 图 像 的 预测 标签 : 


print labels best net(idx-ensemble better, 


[[ 0. 9. 0. 0.21 0. 0. 0. 


ensemble 中 所 有 网 络 对 第 一 张 图 像 的 预测 标签 : 


print_labels_all_nets(idx=ensemble_better ) 


[[ 0. 9. 9. 0.21 0. O. 9. 
[[ 0. 0. 0. 0.96 9. 0.01 9. 
[[ 6. 0. 0. 0.99 9. 0. 0. 
[[ 0. 0. 0. 0.88 9. 0. 0. 
[[ 0. 0. 0. 0.76 0. 0.01 0. 


num=1) 


num=1) 


O OOOO 


0.23. 0; 


6. ro. 


O OOOO 


T9 
.03 
.01 
12 
22 


O OOOO 


]] 


See el nl 
ul nl nl el nl 


样本 : 最 佳 网 络 比 ensemble 好 
现在 绘制 那些 被 ensemble 误 分 类 ， 但 被 最 佳 网 络 正确 分 类 的 样本 。 


plot images comparison(idx-best net better) 


True: 6 True: 7 True: 4 
Ensemble: 0 Ensemble: 3 Ensemble: 9 
Best Net: 6 Best Net: 7 Best Net: 4 

True: 9 True: 8 True: 6 
Ensemble: 3 Ensemble: 3 Ensemble: 1 
Best Net: 9 Best Net: 8 Best Net: 6 

True: 2 True: 8 True: 7 
Ensemble: 0 Ensemble: 9 Ensemble: 9 
Best Net: 2 Best Net: 8 Best Net: 7 


ensemble 对 第 一 张 图 像 (左上 ) 的 预测 标签 : 


print_labels_ensemble(idx=best_net_better, num=1) 


[[ 0.5 0. 0.05 0.45 0， 9. 
最 佳 网 络 对 第 一 张 图 像 的 预测 标签 : 

print_labels_best_net(idx=best_net_better, num=1) 

[[ 0.3 0. 0.15 0.56 0. 9. 


ensemble 中 所 有 网 络 对 第 一 张 图 像 的 预测 标 


KE. 


print_labels_all_nets(idx=best_net_better ) 


]] 


]] 


[[ 0.3 0. 0. 0. 0 0.15 0.56 0. 0. 0. ]] 
[[ 1. 0. 0. © 0. 0. 0. 0. 0. 6.1 

[[ 0.19 0. 0. 0. 0 0. 0.81 0. 0. 0. 1] 
[[ 0.15 0 0. 0. 0 0.12 0.72 0. 0. 0. ]] 
[[ 0.85 0 0. 0. 0 0. 0.14 ©. 0. o. ]] 
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现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 


# This has be 
eriment 

t with the Notebook without having to restart it. 
# sessron.close() 


en commented out in case you want to modify and exp 


e. 


. 


4 


这 篇 教程 创建 了 5 个 神经 网 络 的 集成 (ensemble) ， 用 来 识别 MINIST 数 据 集中 的 手 
写 数 字 。ensemble 取 5 个 单独 神经 网 络 的 平均 值 。 最 终 稍 微 提 高 了 在 测试 集 上 的 分 
类 准确 率 ， 相 比 单个 最 佳 网 络 98.9% 的 准确 率 ，ensemble 是 99.1% » 


然而 ，ensemble 的 表现 并 不 是 一 直 都 比 单个 网 络 好 ， 有 些 单个 网 d M ER: 分 类 的 图 像 
却 被 ensemble 误 分 类 。 这 表明 神经 网 络 ensemble 的 作用 有 点 随机 ， 可 能 无 法 提供 
一 个 提升 性 能 的 可 靠 方式 (和 单独 神经 网 络 性 能 相 比 ) 。 


这 里 使 用 的 集成 学 习 的 形式 叫 bagging (或 Bootstrap Aggregating)， 它 常用 来 避免 
过 拟 合 ， 但 对 (本 文中 的 ) 这 个 特定 的 神经 网 络 和 数据 集 来 说 不 是 必要 的 。 在 其 他 
情况 下 集成 学 习 可 能 仍然 有 效 。 


技术 说 明 

本 文 在 实现 集成 学 习 时 用 了 TensorFlow 中 Saver() 对 象 来 保存 和 恢复 神经 网 络 中 
的 变量 。 但 这 个 功能 其 实 是 为 其 他 目的 设计 的 ， 使 用 在 有 多 种 类 型 神经 网 络 的 集成 
学 习 中 ， 或 者 想 同 时 载 入 多 个 神经 网 络 时 就 有 点 策 抽 了 。 有 一 个 叫 sk-flow 的 


TensorFlow 添 加 包 有 更 简单 的 方法 ， 但 到 2016 年 八 月 为 止 ， 它 仍然 处 于 开发 的 前 期 
阶段 。 


练习 


下 面 是 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 改变 程序 的 几 个 不 同 地 方 ， 看 看 它 如 何 影 响 性 能 : 
o 在 集成 中 使 用 更 多 神经 网 络 。 
o 改变 训练 集 的 大 小 。 
o 改变 优化 迭代 的 次 数 ， 试 着 增加 或 减少 。 
e 向 朋友 解释 程序 如 何 工 作 。 
e 你 认为 集成 学 习 值 得 更 多 的 研究 吗 ， 或 者 宁可 专注 于 提升 单个 神经 网 络 的 性 


能 ? 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #06 


CIFAR-10 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻 译 thrillerist/Github 


简介 
这 篇 教程 介绍 了 如 何 创建 一 个 在 CIRAR-10 数 据 集 上 进行 图 像 分 类 的 卷 积 神 经 网 


络 。 同 时 也 说 明了 在 训练 和 测试 时 如 何 使 用 不 同 的 网 络 。 


本 文 基 于 上 一 篇 教程 ， 你 需要 了 解 基本 的 TensorFlow 和 附加 包 Pretty Tensor。 其 中 
大 量 代 码 和 文字 与 之 前 教程 相似 ， 如 果 你 已 经 看 过 可 以 快速 地 浏览 本 文 。 


流程 图 


下 面 的 图 表 直 接 显 示 了 之 后 实现 的 卷 积 神经 网 络 中 数据 的 传递 。 首 先 有 一 个 扭曲 

(distorts) 输入 图 像 的 预 处 理 层 ， 用 来 人 为 地 扩大 训练 集 。 接 着 有 两 个 卷 积 层 ， 两 
个 全 连接 层 和 一 个 softmax 分 类 层 。 在 后 面 会 有 更 大 的 图 示 来 显示 权重 和 卷 积 层 的 
和 输出， 教程 #02 有 卷 积 如 何 工作 的 更 多 细节 。 


在 这 种 情况 下 图 像 是 误 分 类 的 。 图 像 上 有 一 只 狗 ， 但 神经 网 络 不 确定 它 是 狗 还 是 
猫 ， 认 为 更 有 可 能 是 猫 。 


from IPython.display import Image 
Image( 'images/06_network_flowchart.png') 
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%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 
import time 

from datetime import timedelta 

import math 

import os 


# Use PrettyTensor to simplify Neural Network construction. 
import prettytensor as pt 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.12.0-rc0' 


PrettyTensor 版 本 : 


pt. version . 


boom. d 


载 入 数据 
import cifar10 


设置 电脑 上 保存 数据 集 的 路 径 。 


# cifar10.data_path = "data/CIFAR-10/" 


CIFAR-10 数 据 集 大 概 有 163MB， 如 果 给 定 路 径 没 有 找到 文件 的 话 ， 将 会 自动 下 
载 o 


cifari0.maybe download and extract() 


Data has apparently already been downloaded and unpacked. 


载 入 分 类 名 称 。 


class names = cifar10.load_class_names() 
class_names 


Loading data: data/CIFAR-10/cifar-10-batches-py/batches.meta 


['airplane', 
'automobile', 
'bird', 
Cati, 
'deer', 
'dog', 
'frog', 
'horse', 
'ship', 
'truck'] 


载 入 训练 集 。 这 个 函数 返回 图 像 、 整 形 分 类 号 码 、 以 及 用 One-Hot 编 码 的 分 类 号 数 
组 ， 称 为 标签 。 


images train, cls train, labels train = cifar10.load_training_da 
ta() 


Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 1 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 2 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 3 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 4 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 5 


载 入 测试 集 。 


images test, cls_test, labels test = cifari0.load_test_data() 


Loading data: data/CIFAR-10/cifar-10-batches-py/test_batch 


现在 已 经 载 入 了 CIFAR-10 数 据 集 ， 它 包含 60,000 张 图 像 以 及 相关 的 标签 (图像 的 
TŽ) 。 数 据 集 被 分 为 两 个 独立 的 子 集 ， 即 训练 集 和 测试 集 。 


print("Size of:") 
print("- Training-set:\t\t{}".format(len(images_train))) 
print("- Test-set:\t\t{}".format(len(images_test))) 


Size of: 

- Training-set: 50000 

- Test-set: 10000 
数据 维度 
下 面 的 代码 中 多 次 用 到 数据 维度 。cirfa10 模 块 中 已 经 定义 好 了 这 此 我 们 只 需 
要 import 进 来 。 


from cifar10 import img_size, num_channels, num_classes 


图 像 是 32 x 32 人 和 像素 的 ， 但 我 们 将 图 像 裁剪 至 24 x 244 X © 


img_size_cropped = 24 
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def plot_images(images, cls_true, cls_pred=None, smooth=True): 
assert len(images) == len(cls_true) == 


# Create figure with sub-plots. 
fig, axes = plt.subplots(3, 3) 


# Adjust vertical spacing if we need to print ensemble and b 
est-net. 
if cls_pred is None: 
hspace = 0.3 
else: 
hspace = 0.6 
fig.subplots_adjust(hspace=hspace, wspace=0.3) 


for i, ax in enumerate(axes.flat): 
# Interpolation type. 


if smooth: 

interpolation = 'splinei6' 
else: 

interpolation = 'nearest' 


# Plot image. 
ax.imshow(images[i, :, :, :], 
interpolation=interpolation) 


# Name of the true class. 
cls true name = class names[cls true[i]] 


4 Show true and predicted classes. 
if cls pred is None: 

xlabel = "True: (0)".format(cls true name) 
else: 

# Name of the predicted class. 

cls pred name - class names[cls pred[i]] 


xlabel = "True: {0}\nPred: (1)".format(cls true name 
, Cls_pred_name) 


# Show the classes as the label on the x-axis. 
ax.set_xlabel(xlabel) 


# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show() 
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绘制 几 张 图 像 来 看 看 数据 是 否 正确 
# Get the first images from the test-set. 
images = images_test[0:9] 


# Get the true classes for those images. 
cls_true = cls_test[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true, smooth=False) 


True: cat True: ship True: ship 











True: airplane True: frog True: frog 
True: automobile True: frog True: cat 


上 面 像素 化 的 图 像 是 神经 网 络 的 输入 。 如 果 我 们 对 图 像 进 行 平 滑 处 理 ， 可 能 更 易于 
A IRTE $i) o 


plot_images(images=images, cls_true=cls_true, smooth=True) 
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True: ship True: ship 





True: frog True: frog 





True: automobile True: frog True: cat 


TensorFlow A 


TensorFlow 的 全 部 目的 就 是 使 用 一 个 称 之 为 计算 图 (computational graph) 的 东 
西 ， 它 会 比 直接 在 Python 中 进行 相同 计算 量 要 高 效 得 多 。TensorFlow 比 Numpy 更 高 
效 ， 因 为 TensorFlow 了 解 整个 需要 运行 的 计算 图 ， 然 而 Numpy 只 知道 某 个 时 间 点 上 
唯一 的 数学 运算 。 


TensorFlow 也 能 够 自动 地 计算 需要 优化 的 变量 的 梯度 ， 使 得 模型 有 更 好 的 表现 。 这 
是 由 于 图 是 简单 数学 表达 式 的 结合 ， 因 此 整个 图 的 梯度 可 以 用 链 式 法 则 推导 出 来 。 


TensorFlow 还 能 利用 多 核 CPU 和 GPU，Google 也 为 TensorFlow 制 造 了 称 为 
TPUs (Tensor Processing Units) 的 特殊 芯片 ， 它 比 GPU 更 快 。 


一 个 TensorFlow 图 由 下 面 几 个 部 分 组 成 ， 后 面 会 详细 描述 : 


e 占 位 符 变 量 (Placeholder) 用 来 改变 图 的 输入 。 

e 模型 变量 (Model) 将 会 被 优化 ， 使 得 模型 表现 得 更 好 。 

e 模型 本 质 上 就 是 一 些 数 学 函数 ， 它 根据 Placeholder 和 模型 的 输入 变量 来 计算 一 
些 输出 。 

e 一 个 cost 度 量 用 来 指导 变量 的 优化 。 

e 一 个 优化 策略 会 更 新 模型 的 变量 。 


另外 ，TensorFlow 图 也 包含 了 一 些 调试 状态 ， 比 如 用 TensorBoard 打 印 log 数 据 ， 本 
教程 不 涉及 这 些 。 
占 位 符 (Placeholder) € € 


Placeholder 是 作为 图 的 输入 ， 我 们 每 次 运行 图 的 时 候 都 可 能 改变 它们 。 将 这 个 过 程 
称 为 feeding placeholder 变 量 ， 后 面 将 会 描述 这 个 。 


首先 我 们 为 输入 图 像 定 义 placeholder 变 量 。 这 让 我 们 可 以 改变 a... ud 
中 的 图 像 。 这 也 是 一 个 张 量 (tensor) ， 代 表 一 个 多 维 向 量 或 矩阵 。 数 据 类 型 设 

为 float32， 形 状 设 为 [None, img size, img size, num channels] nn 
可 能 保存 着 任意 数量 的 图 像 ， 每 张 图 像 宽 高 都 为 img size ^ 

有 num channels 个 颜色 通道 。 


x = tf.placeholder(tf.float32, shape=[None, img_size, img_size, 
num_channels], name='x') 


接 下 来 我 们 为 输入 变量 x PARA a HALA 3 placeholder € € » $E 
的 形状 是 [None, num classes] ， 这 代表 着 它 保存 了 任意 数量 的 标签 ， 每 个 标签 
是 长 度 为 num classes 的 向 量 ， 本 例 中 长 度 为 10。 


T 


y_true = tf.placeholder(tf.float32, shape=[None, num_classes], n 
ame-'y true') 


我 们 也 可 以 为 class-number 提 供 一 个 placeholder， 但 这 里 用 argmax 来 计算 它 。 
里 只 是 TensorFlow 中 的 一 些 操 作 ， 没 有 执行 什么 运算 。 


y_true_cls = tf.argmax(y_true, dimension=1) 


预 处 理 的 帮助 函数 


下 面 的 帮助 函数 创建 了 用 来 预 处 理 输入 图 像 的 TensorFlow 计 算 图 。 这 里 并 未 执行 计 
算 ， 函 数 只 是 给 TensorFlow 计 算 图 添加 了 节点 。 


神经 网 络 在 训练 和 测试 阶段 的 预 处 理 方法 不 同 : 


e. 对 于 训练 来 说 ， 输 入 图 像 是 随机 裁剪 、 水 平 翻转 的 ， 并 且 用 随机 值 来 调整 色 
调 、 对 比 度 和 饱和 度 。 这 样 就 创建 了 原始 输入 图 像 的 随机 变 体 ， 人 为 地 扩充 了 
训练 集 。 后 面 会 显示 一 些 扭曲 过 的 图 像样 本 。 


e 对 于 测试 ， 输 入 图 像 根据 中 心 裁剪 ， 其 他 不 作 调 整 。 
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def pre process image(image, training): 
# This function takes a single image as input, 
# and a boolean whether to build the training or testing gra 


ph. 


if training: 
# For training, add the following to the TensorFlow grap 


# Randomly crop the input image. 
image = tf.random_crop(image, size=[img_size_cropped, im 
g size cropped, num channels]) 


4 Randomly flip the image horizontally. 
image - tf.image.random flip left right(image) 





# Randomly adjust hue, contrast and saturation. 
image = tf.image.random hue(image, max_delta=0.05) 





image tf.image.random contrast(image, lower=0.3, upper- 
1.0) 

image = tf.image.random brightness(image, max_delta=0. 2) 

image = tf.image.random saturation(image, lower=0.0, upp 
er=2.0) 

# Some of these functions may overflow and result in pix 
el 

# values beyond the [0, 1] range. It is unclear from the 

# documentation of TensorFlow @.1@.@rc@ whether this is 

# intended. A simple solution is to limit the range. 

# Limit the image pixels between [0, 1] in case of overf 
low. 

image = tf.minimum(image, 1.0) 

image = tf.maximum(image, 0.0) 

else: 

# For training, add the following to the TensorFlow grap 
Me 

# Crop the input image around the centre so it is the sa 
me 

# size as images that are randomly cropped during traini 
ng. 

image = tf.image.resize_image_with_crop_or_pad(image, 

target_he 
ight=img_size_cropped, 
target_wi 


dth=img_size_cropped) 


return image 


| 
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下 面 函 数 中 ， 输 入 batch 中 每 张 图 像 都 调用 以 上 函数 。 


def pre_process(images, training): 
# Use TensorFlow to loop over all the input images and call 
# the function above which takes a single image as input. 
images = tf.map_fn(lambda image: pre_process_image(image, 


aining), images) 


tr 


return images 


为 了 绘制 扭曲 过 的 图 像 ， 我 们 为 TensorFlow 创 建 预 处 理 graph， 后 面 将 会 运行 它 。 


distorted_images = pre_process(images=x, training=True) 


创建 主要 处 理 程序 的 帮助 函数 


下 面 的 帮助 函数 创建 了 卷 积 神经 网 络 的 主要 部 分 。 这 里 使 用 之 前 教程 描述 过 的 
Pretty Tensor ° 


def main_network(images, training): 
# Wrap the input images as a Pretty Tensor object. 
X pretty = pt.wrap(images) 


# Pretty Tensor uses special numbers to distinguish between 
# the training and testing phases. 
if training: 
phase = pt.Phase.train 
else: 
phase = pt.Phase.infer 


# Create the convolutional neural network using Pretty Tenso 


# It is very Similar to the previous tutorials, except 
# the use of so-called batch-normalization in the first laye 


with pt.defaults_scope(activation_fn=tf.nn.relu, phase=phase 


y_pred, loss = x_pretty.\ 

conv2d(kernel=5, depth=64, name='layer_convi', batch 
_normalize=True).\ 

max_pool(kernel=2, stride=2).\ 

conv2d(kernel=5, depth=64, name='layer_conv2').\ 

max_pool(kernel=2, stride=2).\ 

flatten().\ 

fully connected(size-256, name='layer_fc1').\ 

fully connected(size-128, name='layer_fc2').\ 

softmax classifier(num classes-num classes, labels-y 
_true) 


return y_pred, loss 


创建 神经 网 络 的 帮助 函数 
下 面 的 帮助 函数 创建 了 整个 神经 网 络 ， 包 含 上 面 定义 的 预 处 理 以 及 主要 处 理 模块 。 
注意 ， 神 经 网 络 被 编码 到 'network' 变 量 作 用 域 中 。 因 为 我 们 实际 上 在 TensorFlow 图 


中 创建 了 两 个 神经 网 络 。 像 这 样 指定 一 个 变量 作用 域 ， 可 以 在 两 个 神经 网 络 中 复 用 
变量 ， 因 此 训练 网 络 优化 过 的 变量 可 以 在 测试 网 络 中 复 用 。 


def create_network(training): 
# Wrap the neural network in the scope named 'network'. 
# Create new variables during training, and re-use during te 
sting. 
with tf.variable_scope('network', reuse=not training): 
# Just rename the input placeholder variable for conveni 


ence. 
images = x 
# Create TensorFlow graph for pre-processing. 
images = pre_process(images=images, training=training) 
# Create TensorFlow graph for the main processing. 
y_pred, loss = main_network(images=images, training=trai 
ning) 


return y_pred, loss 


为 训练 阶段 创建 神经 网 络 


首先 创建 一 个 保存 当前 优化 选 代 次 数 的 TensorFlow 变 量 。 在 之 前 的 教程 中 ， 是 使 用 
一 个 Python 变量 ， 但 本 教程 中 ， 我 们 想 用 checkpoints 中 的 其 他 TensorFlow 变 量 来 
保存 。 


trainable-False 表示 TensorFlow 不 会 优化 此 变量 。 


global_step = tf.Variable(initial_value=0, 
name='global_step', trainable=False) 


&| 32 Di] 2 A 859 29 EE Eo HA create network() 返回 y pred 和 loss ， 但 在 
训练 时 我 们 只 需 用 到 loss HA oe 


loss = create_network(training=True) 


一 / 
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创建 最 小 化 loss 函数 的 优化 器 。 同 时 将 global step 传 给 优化 器 ， 这 样 每 次 迭 
代 它 都 减 一 。 


optimizer = tf.train.AdamOptimizer(learning rate-ie-4).minimize( 
loss, global_step=global_step) 
创建 测试 阶段 的 神经 网 络 


现在 创建 测试 阶段 的 神经 网 络 。 同样 的 ， create network() 返回 输入 图 像 的 预 
测 标签 y pred ， 优 化 过 程 也 用 到 loss 函数 。 测 试 时 我 们 只 需要 y pred ° 


y_pred, _ = create_network(training=False) 


K E RNA ER XE] 9 MEGA FS MBH y pred 是 一 个 10 个 元 素 的 数 
组 。 类 别 号 是 数组 中 最 大 元 素 的 索引 。 


y pred cls = tf.argmax(y_pred, dimension=1) 


然后 创建 一 个 布尔 向 量 ， 用 来 告诉 我 们 每 张 图 片 的 真实 类 别 是 否 与 预测 类 别 相 同 。 


correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


上 面 的 计算 先 将 布尔 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 
成 1， 然 后 计算 这 些 值 的 平均 数 ， 以 此 来 计算 分 类 的 准确 率 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


Saver 


为 了 保存 神经 网 络 的 变量 (这样 不 必 再 次 训练 网 络 就 能 重 载 ) ， 我 们 创建 一 个 称 为 
Saver-object 的 对 象 ， 它 用 来 保存 及 恢复 TensorFlow 图 的 所 有 变量 。 在 这 里 并 未 保 
BAKR (ETE) 在 后 面 的 optimize() 函数 中 完成 。 


saver = tf.train.Saver() 


获取 权重 


下 面 ， 我 们 要 绘制 神经 网 络 的 权重 。 当 使 用 Pretty Tensor 来 创建 网 络 时 ， 层 的 所 有 
变量 都 是 由 Pretty Tensoe 间 接 创 建 的 。 因 此 我 们 要 从 TensorFlow 中 获取 变量 。 


我 们 用 layer convi 和 layer_conv2 代表 两 个 卷 积 层 。 这 也 叫 变 量 作 用 域 
(不 要 与 上 面 描述 的 defaults scope 混淆 了 ) 。PrettyTensor 会 自动 给 它 为 每 个 
层 创 建 的 变量 命名 ， 因 此 我 们 可 以 通过 层 的 作用 域名 称 和 变量 名 来 取得 某 一 层 的 权 
重 。 


函数 实现 有 点 笨拙 ， 因 为 我 们 不 得 不 用 TensorFlow 有 函数 get variable() ， 它 是 
设计 给 其 他 用 途 的 ， 创 建新 的 变量 或 重用 现 有 变量 。 创 建 下 面 的 帮助 函数 很 简单 。 


def get_weights_variable(layer_name): 
# Retrieve an existing variable named 'weights' in the scope 
# with the given layer_name. 
# This is awkward because the TensorFlow function was 
# really intended for another purpose. 


with tf.variable_scope("network/" + layer_name, reuse=True): 
variable = tf.get variable('weights') 


return variable 
借助 这 个 帮助 函数 我 们 可 以 获取 变量 。 这 些 是 TensorFlow 的 objects。 你 需要 类 似 的 


操作 来 获取 变量 的 内 容 : contents = session.run(weights convi) ， 下 面 会 
提 到 这 个 。 


weights convi 
weights conv2 


get weights variable(layer name-'layer conv1') 
get weights variable(layer name-'layer conv2') 


获取 layer 的 输出 


同样 的 ， 我 们 还 需要 获取 卷 积 层 的 输出 。 这 个 函数 与 上 面 获取 权重 的 函数 有 所 不 
同 。 这 里 我 们 找 回 卷 积 层 输 出 的 最 后 一 个 张 量 。 


def get_layer_output(layer_name): 
# The name of the last operation of the convolutional layer. 
# This assumes you are using Relu as the activation-function. 
tensor name = "network/" + layer name + "/Relu:0" 
# Get the tensor with this name. 
tensor = tf.get_default_graph().get_tensor_by_name(tensor_na 


return tensor 
BÍ EM ee Ee ee Er 
取得 卷 积 层 的 输出 以 便 之 后 绘制 。 


output_conv1 
output_conv2 


get_layer_output(layer_name='layer_conv1' ) 
get layer output(layer name-'layer conv2') 


运行 TensorFlow 


创建 TensorFlow 会 话 (session) 


一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 


session = tf.Session() 


初始 化 或 恢复 变量 
训练 神经 网 络 会 花 上 很 长 时 间 ， 特 别 是 当 你 没有 GPU 的 时 候 。 因 此 我 们 在 训练 时 保 


#checkpoints ， 这 样 就 人 a ANN 继续 训练 (比如 晚上 ) ， 以 后 也 可 以 不 用 训练 
神经 网 络 就 用 这 些 来 分 析 结 


如 果 你 想 重新 训练 神经 网 络 ， 就 需要 先 删 掉 这 些 checkpoints > 
这 是 用 来 保存 checkpoints 的 文件 夹 。 


save_dir = 'checkpoints/' 


如 果 文 件 夹 不 存在 则 创建 。 


if not os.path.exists(save_dir): 
os.makedirs(save dir) 


这 是 checkpoints 的 基本 文件 名 ，TensorFlow 会 在 后 迭代 次 数 等 。 


save path = os.path.join(save_dir, 'cifar1@ cnn') 


试 着 载 入 最 新 的 checkpoint。 如 果 checkpoint 不 存在 或 改变 了 TensorFlow 图 的 话 ， 
可 能 会 失败 并 抛 出 异常 。 


Ery: 


print("Trying to restore last checkpoint .. 


aa 


# Use TensorFlow to find the latest checkpoint - if any. 
last chk path = tf.train.latest_checkpoint(checkpoint_dir=sa 


ve dir) 


# Try and load the data in the checkpoint. 


saver .restore(session, save path-last chk path) 


# If we get to this point, the checkpoint was successfully 1 


oaded. 


print("Restored checkpoint from:", last_chk_path) 


except: 


# If the above failed for some reason, simply 
# initialize all the variables for the TensorFlow graph. 
print("Failed to restore checkpoint. Initializing variables 


instead.") 


session.run(tf.global variables initializer()) 


Trying to restore last checkpoint 


Restored checkpoint from: checkpoints/cifari10 cnn-150000 


创建 随机 训练 batch 的 帮助 函数 


集中 有 50,000 张 图 。 用 这 些 图 像 计 算 模 型 的 梯度 会 


器 的 每 次 迭代 里 只 用 到 了 一 小 部 分 的 图 像 。 


如 果 内 存 耗 尽 叶 致电 脑 死机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 


需要 更 优化 的 迭代 。 


train batch size = 64 


函数 从 训练 集中 挑选 一 个 随机 的 training-batch 。 


花 很 多 


时 间 。 因 此 ， 在 优 


毕 数 量 ， 但 同时 可 能 还 
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def random_batch(): 
# Number of images in the training-set. 
num_images = len(images_train) 


# Create a random index. 

idx = np.random.choice(num_images, 
size=train_batch_size, 
replace=False) 


# Use the random index to select random images and labels. 
X batch = images_train[idx, :, :, :] 
y_batch = labels_train[idx, :] 


return x_batch, y_batch 


执行 优化 迭代 的 帮助 函数 


济 数 用 来 执行 一 定数 量 的 优化 迭代 ， 以 此 来 过 渐 改善 网 络 层 的 变量 。 在 每 次 迭代 
中 ， 会 从 训练 集中 选择 新 的 一 批 数 据 ， 然 后 TensorFlow 在 这 些 训 练 样本 上 执行 优 
化 。 每 100 次 选 代 会 打印 出 进度 。 每 1000 次 迭代 后 会 保存 一 个 checkpoint， 最 后 一 
次 迭代 完毕 也 会 保存 。 


def optimize(num_iterations): 
# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(num_iterations): 
# Get a batch of training examples. 
# x_batch now holds a batch of images and 
# y_true_batch are the true labels for those images. 
x_batch, y_true_batch = random batch() 


# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed dict train = {x: x_batch, 

y_true: y_true_batch} 


# Run the optimizer using this batch of training data. 
# TensorFlow assigns the variables in feed_dict_train 
# to the placeholder variables and then runs the optimiz 
er. 
# We also want to retrieve the global_step counter. 
i_global, _ = session.run([global_step, optimizer], 
feed_dict=feed_dict_train) 


# Print status to screen every 100 iterations (and last). 
if (i_global % 100 == 0) or (i == num_iterations - 1): 


# Calculate the accuracy on the training-batch. 
batch_acc = session.run(accuracy, 
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feed_dict=feed_dict_train) 


# Print status. 

msg = "Global Step: {0:>6}, Training Batch Accuracy: 
(SG ae 

print (msg.format(i global, batch acc)) 


4 Save a checkpoint to disk every 1000 iterations (and 1 


ast). 
if (i global 96 1000 == 0) or (i == num iterations - 1): 
# Save all variables of the TensorFlow graph to a 
# checkpoint. Append the global step counter 
# to the filename so we save the last several checkp 
OXIDE S. 


saver.save(session, 
save path-save path, 
global step-global step) 
print("Saved checkpoint.") 


# Ending time. 
end time - time.time() 


# Difference between start and end-times. 
time dif - end time - start time 


# Print the time-usage. 


print("Time usage: " + str(timedelta(seconds-int(round(time 


dif))))) 
1 


用 来 绘制 错误 样本 的 帮助 函数 
函数 用 来 绘制 测试 集中 被 误 分 类 的 样本 。 
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def plot example errors(cls pred, correct): 
# This function is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# correct is a boolean array whether the predicted class 
# is equal to the true class for each image in the test-set. 


# Negate the boolean array. 
incorrect - (correct -- False) 


# Get the images from the test-set that have been 
# incorrectly classified. 
images - images test[incorrect] 


# Get the predicted classes for those images. 
cls pred = cls_pred[incorrect ] 


# Get the true classes for those images. 
cls true = cls_test[incorrect ] 


# Plot the first 9 images. 
plot images(images-images[9:9], 


cls_true=cls_true[0:9], 
cls_pred=cls_pred[0:9]) 


绘制 混淆 (confusion) 4ETE 85 3$ By AK 
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def plot_confusion_matrix(cls_pred): 
# This is called from print_test_accuracy() below. 


# cls_pred is an array of the predicted class-number for 
# all images in the test-set. 


# Get the confusion matrix using sklearn. 
cm = confusion_matrix(y_true=cls_test, # True class for tes 
tse 
y pred-cls pred) # Predicted class. 


# Print the confusion matrix as text. 

for i in range(num classes): 
4 Append the class-name to each line. 
class name = "({}) {}".format(i, class names[i]) 
print(cm[i, :], class name) 


# Print the class-numbers for easy reference. 

class numbers = [" ({0})".format(i) for i in range(num class 
es)] 

print("".join(class numbers)) 


计算 分 类 的 帮助 函数 


这 个 函数 用 来 计算 图 像 的 预测 类 别 ， 同 时 返回 一 个 代表 每 张 图 像 分 类 是 否 正 确 的 布 
尔 数组 。 


由 于 计算 可 能 会 耗费 太 多 内 存 ， 就 分 批 处 理 。 如 果 你 的 电脑 死机 了 ， 试 着 降低 
batch-size ° 
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# Split the data-set in batches of this size to limit RAM usage. 
batch_size = 256 


def predict_cls(images, labels, cls_true): 
# Number of images. 
num_images = len(images) 


# Allocate an array for the predicted classes which 
# will be calculated in batches and filled into this array. 
cls_pred = np.zeros(shape=num_images, dtype=np.int) 


# Now calculate the predicted classes for the batches. 
# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


S. 
# The starting index for the next batch is denoted i. 
i=0 
while i < num_images: 
# The ending index for the next batch is denoted j. 
j = min(i + batch_size, num_images) 
# Create a feed-dict with the images and labels 
# between index i and j. 
feed_dict = {x: images[i:j, :], 
y_true: labels[i:j, :]} 
# Calculate the predicted class using TensorFlow. 
cls_pred[i:j] = session.run(y_pred_cls, feed_dict=feed_d 
ict) 


# Set the start-index for the next batch to the 
# end-index of the current batch. 
i=j 
# Create a boolean array whether each image is correctly cla 
ssified. 
correct = (cls_true == cls_pred) 


return correct, cls_pred 


Calculate the predicted class for the test-set. 


def predict cis test(): 
return predict cls(images = images test, 
labels - labels test, 
cls true - cls test) 
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计算 分 类 准确 率 的 帮助 函数 


这 个 函数 计算 了 给 定 布尔 数组 的 分 类 准确 率 ， 布 尔 数组 表示 每 张 图 像 是 否 被 正确 分 
类 。 比 如， 

cls accuracy([True, True, False, False, False]) = 2/5 = 0.4 。 这 个 
函数 也 返回 了 正确 分 类 的 数量 。 


def classification accuracy(correct): 
4 When averaging a boolean array, False means © and True mea 
5 E So we are calculating: number of True / len(correct) which 
# the same as the classification accuracy. 
# Return the classification accuracy 


# and the number of correct classifications. 
return correct.mean(), correct.sum() 


展示 性 能 的 帮助 函数 
函数 用 来 打印 测试 集 上 的 分 类 准确 率 。 


为 测试 集 上 的 所 有 图 片 计 算 分 类 会 花费 一 段 时 间 ， 因 此 我 们 直接 从 这 个 函数 里 调用 
上 面 的 函数 ， 这 样 就 不 用 每 个 函数 都 重新 计算 分 类 。 
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def print_test_accuracy(show_example_errors=False, 
show_confusion_matrix=False): 

# For all the images in the test-set, 

# calculate the predicted classes and whether they are corre 
CIE. 

correct, cls_pred = predict_cls_test() 

# Classification accuracy and the number of correct classifi 
cations. 


acc, num_correct = classification_accuracy(correct) 


# Number of images being classified. 
num_images = len(correct) 


# Print the accuracy. 
msg = "Accuracy on Test-Set: {0:.1%} ({1} / {2})" 
print(msg.format(acc, num_correct, num_images) ) 


# Plot some examples of mis-classifications, if desired. 

if show_example_errors: 
print("Example errors:") 
plot_example_errors(cls_pred=cls_pred, correct=correct) 


# Plot the confusion matrix, if desired. 

if show_confusion_matrix: 
print("Confusion Matrix:") 
plot_confusion_matrix(cls_pred=cls_pred) 


绘制 卷 积 权重 的 帮助 函数 


def plot_conv_weights(weights, input_channel=0): 


))) 


())) 


# Assume weights are TensorFlow ops for 4-dim variables 
# e.g. weights convi or weights conv2. 


# Retrieve the values of the weight-variables from TensorFlo 
4 A feed-dict is not necessary because nothing is calculated. 
w = session.run(weights) 


# Print statistics for the weights. 
prompto Min: 18: .5f), Max: {1:.5f}".format(w.min(), w.max( 


print("Mean: {0:.5f}, Stdev: {1:.5f}".format(w.mean(), w.std 
# Get the lowest and highest values for the weights. 


# This is used to correct the colour intensity across 
# the images so they can be compared with each other. 
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w_min = np.min(w) 
= np.max(w) 
abs_max = max(abs(w_min), abs(w_max) ) 


# Number of filters used in the conv. layer. 
num_filters = w.shape[3] 


# Number of grids to plot. 
# Rounded-up, square-root of the number of filters. 
num grids = math.ceil(math.sqrt(num_filters)) 


# Create figure with a grid of sub-plots. 
fig, axes = plt.subplots(num_grids, num_grids) 


# Plot all the filter-weights. 
for i, ax in enumerate(axes.flat): 
# Only plot the valid filter-weights. 
if i<num_filters: 
# Get the weights for the i'th filter of the input c 
hannel. 
# The format of this 4-dim tensor is determined by t 
he 
# TensorFlow API. See Tutorial #02 for more details. 
img = w[:, :, input channel, i] 


# Plot image. 
ax.imshow(img, vmin=-abs_max, vmax=abs_max, 
interpolation='nearest', cmap='seismic' ) 


# Remove ticks from the plot. 

ax.set_xticks([]) 

ax.set_yticks([]) 
# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show( ) 


Hl ——— ae ij 


绘制 卷 积 层 输出 的 帮助 函数 
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def plot_layer_output(layer_output, image): 
# Assume layer_output is a 4-dim tensor 
# e.g. output convi or output_conv2. 


# Create a feed-dict which holds the single input image. 
# Note that TensorFlow needs a list of images, 

# so we just create a list with this one image. 

feed dict = (x: [image]! 


# Retrieve the output of the layer after inputting this imag 
values - session.run(layer output, feed dict-feed dict) 


# Get the lowest and highest values. 

# This is used to correct the colour intensity across 
# the images so they can be compared with each other. 
values min - np.min(values) 

values max - np.max(values) 


# Number of image channels output by the conv. layer. 
num images = values.shape[3] 


# Number of grid-cells to plot. 
# Rounded-up, square-root of the number of filters. 
num grids - math.ceil(math.sqrt(num images)) 


# Create figure with a grid of sub-plots. 
fig, axes - plt.subplots(num grids, num grids) 


# Plot all the filter-weights. 
for i, ax in enumerate(axes.flat): 
4 Only plot the valid image-channels. 
if i«num images: 
# Get the images for the i'th output channel. 
img = values[®, :, :, i] 


# Plot image. 
ax.imshow(img, vmin-values min, vmax-values max, 
interpolation-'nearest', cmap='binary') 


# Remove ticks from the plot. 
ax.set xticks([]) 
ax.set yticks([]) 
# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show() 


输入 图 像 变 体 的 样本 
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为 了 人 为 地 增加 训练 用 的 图 像 数 量 ， 神 经 网 络 预 处 理 获取 输入 图 像 的 随机 变 体 。 这 
让 神经 网 络 在 识别 和 分 类 图 像 时 更 加 灵活 。 


这 是 用 来 绘制 输入 图 像 变 体 的 帮助 函数 。 


def plot_distorted_image(image, cls_true): 

# Repeat the input image 9 times. 

image_duplicates = np.repeat(image[np.newaxis, :, :, :], 9, 
axis=0) 


# Create a feed-dict for TensorFlow. 
feed_dict = {x: image_duplicates} 


# Calculate only the pre-processing of the TensorFlow graph 
# which distorts the images in the feed-dict. 
result = session.run(distorted_images, feed_dict=feed_dict) 


# Plot the images. 
plot_images(images=result, cls_true=np.repeat(cls_true, 9)) 


帮助 函数 获取 测试 集 图 像 以 及 它 的 分 类 号 o 


def get_test_image(i): 
return images test[i, :, :, :], cls_test[i] 


MAKE PRAAT 85 RE RZ o 


img, cls = get test image(16) 


画 出 图 像 的 9 张 随机 变 体 。 如 果 你 重新 运行 代码 ， 可 能 会 得 到 不 太一 样 的 结果 。 


plot_distorted_image(img, cls) 
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True: dog True: dog True: dog 








True: dog True: dog True: dog 


» 





True: dog True: dog True: dog 


执行 优化 


我 的 笔记 本 电脑 是 4 核 的 ， 每 个 2GHz。 电 脑 带 有 一 个 GPU ， 但 对 TensorFlow 来 说 不 
太 快 ， 因 此 只 用 了 CPU 。 在 ee Mudo d up 1 个 小 时 。 本 教程 中 我 执 
行 了 150,000 次 优化 迭代 ， EE 了 15 个 小 时 。 我 让 它 在 夜里 以 及 白天 的 几 个 时 间 段 
运行 。 


由 于 我 们 在 优化 过 程 中 保存 了 checkpoints， 重 新 运行 代码 时 会 载 入 最 后 的 那个 
checkpoint， 所 以 可 以 先 停 止 ， 等 晚点 再 继续 执行 优化 。 


if False: 
optimize(num_iterations=1000) 


结果 

在 150,000 次 优化 迭代 之 后 ， 测 试 集 上 的 分 类 准确 率 大 约 79%-80%。 下 面 画 出 了 一 
些 误 分 类 的 图 像 。 其 中 有 一 些 即 使 人 眼 也 很 难 THER? ， 也 有 一 些 是 合乎 情理 的 错 
误 ， 比 如 大 型 车 和 卡车 ， 猫 与 狗 ， 但 有 些 错误 就 有 点 奇怪 了 。 
print_test_accuracy(show_example_errors=True, 


show_confusion_matrix=True) 


Accuracy on Test-Set: 79.3% (7932 / 10000) 
Example errors: 
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True: airplane 
Pred: horse 





True: bird 
Pred: deer 





True: airplane 
Pred: bird 








True: dog True: dog 
Pred: cat Pred: deer 





True: bird 








True: cat 
Pred: frog Pred: dog 





E 
True: horse True: deer 
Pred: cat Pred: dog 


Confusion Matrix: 
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卷 积 权重 


下 面 展示 了 一 些 第 一 个 卷 积 层 的 权重 (或 滤波 ) 
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(2) 


8 14 4 18 10 44 

0 3 7 9 3 14 
28 42 44 94 17 
508 56 209 99 29 
25 769 29 75 43 
89 35 748 38 32 
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18 31 55 17 833 
11 8 te de 0 856 
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(3) (4) (5) (6) (7) (8) 


ONDPONO 


(0) 
(1) 
(2) 
(3) 
(4) 
(5) 
(6) 
(7) 
(8) 
(9) 


airplane 
automobile 
bird 

cat 

deer 

dog 

frog 

horse 

ship 

truck 


。 共 有 3 个 输入 通道 ， 因 此 有 三 组 


(数据 ) ， 你 可 以 改变 input channel 来 改变 绘制 结果 。 


权重 正 值 是 红 的 ， 负 值 是 蓝 的 。 


plot conv weights(weights-weights convi, input_channel=0) 


Min: -0.61643, Max: 0.63949 
Mean: -0.00177, Stdev: 0.16469 
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绘制 图 像 的 帮助 函数 。 


卷 积 层 的 输出 





def plot_image(image): 
# Create figure with sub-plots. 
fig, axes = plt.subplots(1, 2) 


# References to the sub-plots. 
ax0 = axes. flat[0] 
axi = axes.flat[1] 


# Show raw and smoothened images in sub-plots. 
ax0.imshow(image, interpolation='nearest' ) 
axi.imshow(image, interpolation='spline16') 


# Set labels. 
ax0.set_xlabel('Raw' ) 
ax1.set xlabel('Smooth') 


# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show() 


绘制 一 张 测试 集中 的 图 像 。 未 处 理 的 像素 图 像 作为 神经 网 络 的 输入 。 


img, cls = get test image(16) 
plot_image(img) 





0 5 10 15 20 25 30 
Raw Smooth 


将 原始 图 像 作为 神经 网 络 的 输入 ， 然 后 画 出 第 一 个 卷 积 层 的 输出 。 


plot_layer_output(output_convi, image=img) 


EIA 
IOI 
EIEN E IE] 
EIEN IE IE IE 
IEEE TE] 
EAE JE: TE Tes 1E TEN 
EIA 
HEDEMAN 


将 同样 的 图 像 作为 输入 ， 画 出 第 二 个 卷 积 层 的 输出 。 
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预测 的 类 别 标签 


获取 图 像 的 预测 类 别 标签 和 类 别 号 。 


([y_pred, y_pred_cls], 
feed_dict={x: [img]}) 


label_pred, cls_pred = session.run 


打印 预测 类 别 标签 。 


# Set the rounding options for numpy. 
np.set_printoptions(precision=3, suppress=True) 


# Print the predicted label. 
print(label_pred[0]) 


[ 0. 0. 0. 0.493 0. 0.49 0.006 0.01 0. 
0. ] 


预测 类 别 标签 是 长 度 为 10 的 数组 ， 每 个 元 素 代表 着 神经 网 络 有 多 大 信心 认为 图 像 是 
该 类 别 。 


在 这 个 例子 中 ， 索 引 3 的 值 是 0.493，5 的 值 为 0.490。 这 表示 神经 网 络 相信 图 像 要 么 
是 类 别 3， 要 么 是 类 别 5， 即 猫 或 狗 。 


class_names[3] 


Yeats 


class_names[5] 


'dog' 


X AlTensorFlow = 


现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# session.close() 


篇 教程 介绍 了 如 何 创建 一 个 在 CIRAR-10 数 据 集 上 进行 图 像 分 类 的 卷 积 神经 网 
。 测 试 集 上 的 分 类 准确 率 大 概 79-80% © 


同时 也 画 出 了 卷 积 层 的 输出 ， 但 很 难看 出 神经 网 络 如 何 分 辩 并 分 类 图 像 。 需 要 更 好 
的 可 视 化 技巧 。 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建 议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Nootbook 进 行 改变 之 前 ， 可 能 需要 先 备 份 一 下 。 


e 执行 10,000 次 迭代， 看 看 分 类 准确 率 如 何 。 将 会 保存 一 个 checkpoint 来 储存 
TensorFlow 图 的 所 有 变量 。 

e. 再 执行 100,000 次 选 代 ， 看 看 分 类 准确 这 有 没有 提升 。 然 后 再 执行 100,000 次 。 
准确 率 有 提升 吗 ， 你 认为 值得 这 些 增加 的 计算 时 间 吗 ? 

e 试 着 再 预 处 理 阶段 改变 图 像 的 变 体 。 

e 试 着 改变 神经 网 络 的 结构 。 你 可 以 让 神经 网 络 更 大 或 更 小 。 这 对 训练 时 间或 分 
类 准确 率 有 什么 影响 ?3 要 注意 的 是 ， 当 你 改变 了 神经 网 络 结构 时 ， 就 无 法 重新 
A Acheckpoints f ° 

e 试 着 在 第 二 个 卷 积 层 使 用 batch-normalization。 也 试 试 在 俩 个 层 中 都 删 掉 它 。 

e 研究 一 些 CIFAR-10 上 的 更 好 的 神经 网 络 ， 试 着 实现 它们 。 

e 向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #07 


Inception 模型 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist/Github 


介绍 


这 篇 教程 演示 了 如 何 用 一 个 预 训练 好 的 深度 神经 网 络 Inception v3 来 进行 图 像 分 类 。 


Inception v3 模型 在 一 人 台 配 有 8 Tesla K40 GPUs， 大 概 价 值 $30,000 的 野兽 级 计算 
机 上 训练 了 几 个 星期 ， 因 此 不 可 能 在 一 台 普通 的 PC 上 训练 。 我 们 将 会 下 载 预 训 练 好 
的 Inception 模 型 ， 然 后 用 它 来 做 图 像 分 类 。 


Inception v3 模型 大 约 有 2500 万 个 参数 ， 分 类 一 张 图 像 就 用 了 50 亿 的 乘 加 指令 。 在 
一 台 没有 GPU 的 现代 PC 上 ， 分 类 一 张 图 像 转眼 就 能 完成 。 


这 篇 教程 隐藏 了 TensorFlow 人 代码， 因此 可 能 不 要 求 很 多 的 TensorFlow 经 验 ， 当 然 从 
之 前 的 教程 中 学 到 一 些 对 TensorFlow 的 基本 理解 还 是 很 有 帮助 的 ， 特 别 是 在 你 想 学 
习 inception.py 文件 中 的 实现 细节 时 。 


流程 图 

下 面 的 流程 图 显示 了 Inception v3 模型 中 的 数据 流向 ， 这 是 一 个 带 有 许多 层 的 ， 有 着 
复杂 结构 的 卷 积 神经 网 络 。 这 篇 论文 里 有 Inception 模 型 如 何 构 造 ， 以 及 为 什么 这 么 
设计 的 更 多 细节 。 但 作者 也 承认 他 们 并 不 完全 明白 模型 的 工作 原理 。 


注意 ，Inception 模 型 有 两 个 softmax 输 出 。 一 个 是 在 训练 神经 网 络 时 使 用 ， 另 一 个 
是 训练 结束 之 后 ， 在 图 像 分 类 时 使 用 ， 即 推断 阶段 (inference) > 


上 周 刚刚 分 布 了 新 的 模型 ， 它 比 Inception v3 更 复杂 ， 也 得 到 了 更 好 的 分 类 准确 


from IPython.display import Image, display 
Image('images/07 inception flowchart.png') 
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@ Dropout 
@ Fully connected 
WB Softmax 
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%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

import os 

# Functions and classes for loading and using the Inception mode 


je 
import inception 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.10.0rc0' 


下 载 Inception 模 型 


从 网 上 下 载 Inception 模 型 。 这 是 你 保存 数据 文件 的 默认 文件 夹 。 如 果 文 件 夹 不 存在 
就 自动 创建 。 


# inception.data dir = 'inception/' 


如 果 文 件 夹 中 不 存在 Inception 模 型 ， 就 自动 下 载 。 
它 有 85MB ^ 


inception.maybe download() 


Downloading Inception v3 Model ... 
Data has apparently already been downloaded and unpacked. 


3X ^.Inception7£& 7! 


载 入 模型 ， 为 图 像 分 类 做 准备 。 


注意 这 些 warning 人 信息， 以 后 可 能 会 导致 程序 运行 失败 。 


model = inception.Inception() 


/home/magnus/anaconda3/envs/tensorflow/lib/python3.5/site-packag 
es/tensorflow/python/ops/array ops.py:1811: VisibleDeprecationWa 
rning: converting an array with ndim » O to an index will result 
in an error in the future 
result shape.insert(dim, 1) 


分 类 以 及 绘制 图 像 的 帮助 函数 


这 是 一 个 简单 的 封装 函数 ， 它 可 以 展示 图 像 ， 然 后 用 Inception 模 型 进行 分 类 ， 最 终 
打印 出 分 类 评分 。 


def classify(image_path): 
# Display the image. 


display(Image(image_path) ) 


# Use the Inception model to classify the image. 


pred = model.classify(image path-image path) 


# Print the scores and names for the top-10 predictions. 
model.print_scores(pred=pred, k=10, only_first_name=True) 


Ag A 
Inception 数 据 文件 中 包含 了 这 张 熊猫 图 像 。Inception 模 型 相当 确定 这 张 图 片上 展示 
了 熊猫 ， 分 类 评分 达到 了 89.23%， 第 二 高 的 代表 大 狐 猴 的 分 数 只 有 0.86%， 这 是 另 
外 一 种 外 来 动物 。 


image path = os.path.join(inception.data_dir, 'cropped_panda.jpg' 
) 
classify(image_path) 

EI ET 1» 











89.23% : giant panda 
0.86% : indri 

0.26% : lesser panda 
0.14% : custard apple 
0.11% : earthstar 
0.08% : sea urchin 
0.05% : forklift 
0.05% : soccer ball 
0.05% : go-kart 

0.05% : digital watch 


分 类 评分 的 解释 
Inception 模 型 的 输出 是 Softmax 函 数 ， 这 在 之 前 教程 中 的 神经 网 络 中 也 有 用 到 。 


softmax 输 出 有 时 也 称 为 概率 分 布 (probabilities) ， 因 为 它 介 于 零 到 一 之 间 ， 然 后 
相 加 为 一 ， 与 概率 分 布 相 同 。 但 它们 并 不 是 传统 语义 上 的 概率 分 布 ， 因 为 并 不 是 由 
重复 试验 得 来 。 

将 神经 网 络 的 输出 值 称 为 分 类 评分 或 排名 可 能 会 更 好 ， 因 为 结果 显示 了 神经 网 络 认 
为 输入 图 像 是 每 个 可 能 分 类 的 强度 。 


在 上 面 的 熊猫 样本 中 ，Inception 模 型 给 熊猫 类 型 很 高 的 分 数 一 89.23%， 同 时 其 它 
999 种 类 别 的 分 数 都 在 1% 以 下 。 这 表示 Inception 模 型 十 分 确信 图 像 展 示 了 一 只 能 
猫 ， 而 剩 下 1% 以 下 的 应 该 视 为 噪声 。 上 比如， 排名 第 十 高 的 分 数 是 0.05%， 代 表 电 子 
ce ' 但 它 更 可 能 是 由 于 神经 网 络 的 不 精准 而 不 是 暗示 着 图 像 看 起 来 有 点 像 电 子 手 


有 时 Inception 模 型 不 确定 图 像 属于 哪 一 个 分 类 ， 因 此 结果 中 并 没有 一 个 特别 高 的 分 
数 。 下 面 会 展示 这 种 样本 。 


AA (原始 图 像 ) 


Inception 模 型 十 分 确定 (评分 97.30%) AKARAT T — 4t A Bas 65 2638 o 


classify(image_path="images/parrot.jpg") 





97.30% : macaw 

0.07% : African grey 

0.07% : toucan 

0.05% : jacamar 

0.04% : bee eater 

0.04% : lorikeet 

0.02% : sulphur-crested cockatoo 
0.02% : jay 

0.01% : kite 

0.01% : sandbar 


E635 (调整 图 像 ) 

Inception 使 用 于 299 x 299 像 素 的 输入 图 像 。 上 面 的 鹦 欧 图像 实际 上 是 320 像 素 帘 、 

785 像 素 高 的 ， 因 此 它 将 由 Inception 模 型 自动 缩放 。 

现在 我 们 想 看 看 被 Inception 模 型 调整 过 的 图 像 。 

首先 我 们 实现 一 个 帮助 函数 ， 用 来 从 Inception 模 型 内 部 获取 调整 过 的 图 像 。 

def plot_resized_image(image_path): 

# Get the resized image from the Inception model. 
resized_image = model.get_resized_image(image_path=image_pat 


h) 


# Plot the image. 
plt.imshow(resized_image, interpolation='nearest' ) 


# Ensure that the plot is shown. 
plt.show( ) 


LA my RS AE 09 F488 Ao i t Inception& A P zv Ze pl 28 85 SE d A BR o KANT 
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RE LT > ARV RAMI —REA e —:5 p RAE (RHA) 原生 的 
调整 后 会 变 得 扭曲 ， 因 此 你 可 能 会 想 自己 调整 图 像 大 小 ， 再 输入 到 Inception 模 型 。 


plot_resized_image(image_path="images/parrot. jpg") 





2538 (RY AR EZ) 


25635 RAK 3-25 3,3] R299 x 299 像 素 大 小 ， 然 后 输入 到 Inception 模 型 中 ， 这 时 
(模型 ) 还 是 很 确信 (评分 97.38% ) WABARI -RE (ENW) © 


classify(image_path="images/parrot_cropped1.jpg") 





97.38% : macaw 

0.09% : African grey 

0.03% : sulphur-crested cockatoo 
0.02% : toucan 

0.02% : reflex camera 

0.01% : comic book 

0.01% : backpack 

0.01% : bib 

0.01% : vulture 

0.01% : lens cap 


$535 (RIAR PH) 


ix S555 3 RR EAN >» RAKETE T RA AE T o 不 包含 头 部 和 尾巴 。 
Inception 模 型 仍然 很 确定 (评分 93.94%) 3E — REMI BHR o 


classify(image_path="images/parrot_cropped2.jpg") 





.94% : macaw 

.77% : toucan 

.55% : African grey 

.13% : jacamar 

.12% : bee eater 

.11% : sulphur-crested cockatoo 
.10% : magpie 

.09% : jay 

.07% : lorikeet 

.05% : hornbill 


GOoOo000 000 0W 


7638 (AW AR > RAB) 


这 次 的 裁剪 图 像 只 显示 了 ° 现在 Inception 模 型 相当 困惑 ， 认 为 图 像 可 能 
XoRjE—XRA85E (22641190) ， 这 是 另 一 种 外 来 鸟 ， 也 可 能 是 一 只 草 晤 (评分 
10.61%) 。 


Inception 模 型 还 认为 图 像 有 可 能 是 一 只 钢笔 (评分 2%) 。 但 这 是 一 个 很 低 的 分 
数 ， 应 该 解释 成 不 可 靠 的 噪声 。 


classify(image_path="images/parrot_cropped3.jpg") 





26.11% : jacamar 
10.61% : grasshopper 
4.05% : chime 

2.24% : bulbul 

.00% : fountain pen 
.60% : leafhopper 
.26% : cricket 

.25% : kite 

.13% : macaw 

.80% : torch 
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2535 (填充 图 像 ) 
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classify(image_path="images/parrot_padded. jpg") 
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.7896 : 
.0696 : 
.0696 : 
.0596 : 
.0496 : 
.0396 : 
.0396 : 
.0396 : 
.0196 : 
.0196 : 





macaw 


toucan 

African grey 

bee eater 
sulphur-crested cockatoo 
king penguin 

jacamar 

lorikeet 

kite 

anemone fish 


Elon Musk (299 x 299 像素 ) 


这 张 图 像 展 示 了 Elon Musk 


活着 的 传奇 ， 超 级 - 书 采 子 -英雄 。 但 Inception 模 型 对 





图 像 显 示 的 东西 很 困惑 ， 它 预测 图 像 可 能 是 一 件 运动 衫 (评分 19.73%) ， 或 者 是 一 
件 阿 拉 伯 长 袍 (评分 16.82) 。 它 也 认为 图 像 可 能 是 一 个 乒乓 球 (3.05%) 或 一 个 棒 
球 (评分 1.86%) 。Inception 模 型 很 困惑 ， 并 且 分 类 评分 不 可 靠 。 


classify(image_path="images/elon_musk. jpg") 


Inception 








19.73% : sweatshirt 
16.82% : abaya 

4.17% : suit 

3.46% : trench coat 

3.05% : ping-pong ball 
1.92% : cellular telephone 
1.86% : baseball 

1.77% : jersey 

1.54% : kimono 

1.43% : water bottle 


Elon Musk (100 x 100 像素 ) 

如 果 我 们 使 用 100 x 10044 # 4 Elon Mask 图 像 ， 这 时 Inception 模 型 认为 它 可 能 是 一 
件 运 动 衫 (评分 17.85% ) ， 或 是 一 只 牛仔 就 (评分 16.36% ) 。 现 在 Inception 模 型 
做 出 了 一 些 不 同 的 预测 ， 但 仍然 很 困惑 。 


classify(image_path="images/elon_musk_100x100.jpg") 





17.85% : sweatshirt 
16.36% : cowboy boot 
10.68% : balance beam 
8.87% : abaya 

5.36% : suit 

4.57% : Loafer 

2.94% : trench coat 
2.65% : maillot 
1.87% : jersey 

1.42% : unicycle 


Inception 模 型 自动 将 图 像 从 100 x 100% X 2299 x 299 像 素 ， 如 下 所 示 。 看 看 它 是 
多 么 像素 化 和 锯齿 状 ， 尽 管 人 类 可 以 轻易 地 看 出 这 是 一 张 双 展 交叉 的 男人 的 图 像 。 


plot resized image(image path-"images/elon musk 100x100.jpg") 





查理 和 巧克力 工厂 (Gene Wilder) 


这 张 图 像 展示 了 在 1971 版 电影 《查理 和 巧克力 工厂 》 中 演员 Gene Wilder 饰 演 的 角 
色 。|Inception 模 型 很 确定 图 像 显示 了 一 个 蝴蝶 领结 (评分 97.22%) ， 尽 管 这 是 对 
的 ， 但 人 类 很 可 能 说 这 张 图 片 展示 的 是 一 个 人 。 


原因 可 能 是 Inception 模 型 在 训练 时 将 戴 蝴蝶 结 的 人 的 图 像 分 类 成 蝴蝶 领结 而 不 是 一 
个 人 。 因 此 ， 或 许 类 别名 称 应 该 改 成 “ 戴 蝴 蝶 领 结 的 人 "而 不 只 是 “蝴蝶 领结 ”。 


classify(image_path="images/willy_wonka_old.jpg") 





97.22% : bow tie 
0.92% : cowboy hat 
0.21% : sombrero 
0.09% : suit 
0.06% : bolo tie 
0.05% : Windsor tie 
0.04% : cornet 
0.03% : flute 
0.02% : banjo 
0.02% : revolver 


查理 和 巧克力 工厂 (Johnny Depp) 


这 张 图 像 展示 了 在 2005 版 电影 《查理 和 巧克力 工厂 》 中 演员 Johnny Depp 饰 演 的 角 
色 。 Inception 楼 型 认为 图 像 是 t “太阳 镜 (sunglasses) ”( 评 分 31.48%) 或 “太阳 镜 

(sunglass) ”( 评 分 18.77) 。 实 际 上 ， 第 一 个 类 别 的 全 名 是 “太阳 镜 ， 深 色 有 眼镜 ， 
坚 镜 "。 出 于 茶 些 原因 ，Inception 模 型 被 训练 成 可 以 识别 别 两 种 相似 的 眼镜 。 再 一 次 ， 
图 像 显示 了 太阳 镜 ， 这 个 结果 是 对 的 ， 但 人 类 很 可 能 会 说 图 像 展示 的 是 一 个 人 。 


classify(image_path="images/willy_wonka_new.jpg") 





31.48% : sunglasses 
18.77% : sunglass 
1.55% : velvet 
1.02% : wig 

0.77% : cowboy hat 
0.69% : seat belt 
0.67% : sombrero 
0.62% : jean 
0.46% : poncho 
0.43% : jersey 


X i] TensorFlow2 t 


现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 注 意 ， 
TensorFlow-session 是 在 模型 内 部 的 ， 因 此 我 们 通过 模型 来 关闭 它 。 


# This has been commented out in case you want to modify and exp 

eriment 

# with the Notebook without having 
model.close() 


4 


to restart it. 


im 


$a 


4 


本 教程 说 明了 如 何 使 用 预 训练 的 Inception v3 模型 。 它 在 一 人 台 野 普 级 电脑 上 花 了 好 几 
周 才 训 练 好 。 但 我 们 可 以 从 网 上 下 载 完成 的 模型 ， 然 后 在 一 人 台 普 通 PC 上 用 它 来 做 图 
像 分 类 。 


不 幸 的 是 ，Inception 模 型 对 识别 人 物 很 有 问题 。 这 可 能 是 所 使 用 训练 集 的 原因 。 新 
版 的 Inception 模 型 也 已 经 发 布 了 ， 但 它 可 能 也 是 在 同样 的 训练 集 上 训练 ， 对 于 识别 
人 物 还 是 有 问题 。 硕 望 未 来 的 模型 会 训练 来 识别 常见 的 物体 ， 比 如 人 类 。 


这 篇 教程 中 我 们 在 inception.py 文件 中 隐藏 AE EEN, 实现 细节 ， 因 为 它 

点 凌乱 ， 我 们 可 外 . c Moo 布 望 TensorFlow 的 开发 者 会 
标准 化 、 简 单 化 API， 使 得 更 简 nn Er ， 这样， 每 个 人 只 需要 几 

行 代码 就 能 使 用 一 个 强大 的 图 像 分 


练习 


下 面 是 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 改变 之 前 ， 可 能 需要 先 备份 一 下 。 


e 使 用 你 自己 的 、 或 者 在 网 上 找到 的 图 像 。 

e 裁剪 ， 调 整 大 小 ， 扭 曲 图 像 ， 看 看 它 如 何 影响 分 类 准确 率 。 

e 在 代码 的 几 个 不 同 地 方 加 入 打印 信息 。 你 也 可 以 直接 运行 调 
试 inception.py 文件 。 

e 试 着 使 用 这 些 刚 发 布 的 新 模型 。 它 们 的 载 入 方式 与 Inception v3 模型 不 同 ， 实现 
起 来 可 能 更 具 挑 战 性 。 

eo 向 朋友 解释 程序 如 何 工作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #08 


迁移 学 习 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻 译 thrillerist/Github 


简介 


在 前 一 篇 教程 #07 中， 我 们 了 解 了 如 何 用 预 训练 的 Indeption 模 型 来 做 图 像 分 类 。 不 
幸 的 是 ，Inception 模 型 似乎 无 法 对 人 物 图 像 做 分 类 。 原 因 在 于 该 模型 所 使 用 的 训练 
BETREK RA KI RARE © 


Inception 模 型 实际 上 能 够 从 图 像 中 提取 出 有 用 的 信息 。 因 此 我 们 可 以 用 其 它 数据 集 
来 训练 Inception 模 型 。 但 如 果 要 在 新 的 数据 集 上 训练 这 样 的 模型 ， 需 要 在 一 台 强 大 
又 昂贵 的 电脑 上 花费 好 几 周 的 时 间 o 


相反 ， 我 们 可 以 复 用 预 训练 的 Inception 模 型 ， 然 后 只 需要 替换 掉 最 后 做 分 类 的 那 一 
层 。 这 个 方法 叫 迁 移 学 习 。 


本 文 基 于 上 一 篇 教程 ， 你 需要 熟悉 教程 #07 中 的 Inception 模 型 ， 以 及 之 前 教程 中 关 
于 如 何在 TensorFlow 中 创建 和 训练 神经 网 络 的 部 分 。 这 篇 教程 的 部 分 代码 
在 inception.py 文件 中 。 


流程 图 


下 图 展示 了 用 Inception 模 型 做 迁移 学 习 时 数据 的 流向 。 首 先 ， 我 们 在 Inception 模 型 
中 输入 并 处 理 一 张 图 像 。 在 模型 最 终 的 分 类 层 之 前 ， 将 所 谓 的 Transfer- Values 保 存 
到 缓存 文件 中 。 


使 用 缓存 文件 的 原因 是 ，lInception 模 型 处 理 一 张 图 要 花 很 长 时 间 。 我 的 装 有 Quad- 
Core 2 GHz CPU 的 笔记 本 电脑 每 秒 能 用 Inception 模 型 处 理 3 张 图 像 。 如 果 每 张 图 像 
都 要 处 理 多 次 的 话 ， 将 transfer-values 保 存 下 来 可 以 节省 很 多 时 间 。 


transfer-values 有 时 也 称 为 bottleneck-values， 但 这 个 词 可 能 令 人 费解 ， 在 这 里 就 没 
有 使 用 。 


当 新 数据 集 里 的 所 有 图 像 都 用 Inception 处 理 过 ， 并 且 生 成 的 transfer-values 都 保存 
到 缓存 文件 之 后 ， 我 们 可 以 将 这 些 transfer-values 作 为 其 它 神经 网 络 的 输入 。 接 着 
训练 第 二 个 神经 网 络 ， 用 来 分 类 新 的 数据 集 ， 因 此 ， 网 络 基于 Inception 模 型 的 
transfer-values 来 学 习 如 何 分 类 图 像 。 


这 样 ，Inception 模 型 从 图 像 中 提取 出 有 用 的 信息 ， 然 后 用 另外 的 神经 网 络 来 做 卜 正 
的 分 类 工作 。 





from IPython.display import Image, display 
Image('images/08 transfer learning flowchart.png') 
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%matplotlib inline 

import matplotlib.pyplot as plt 
import tensorflow as tf 

import numpy as np 

import time 

from datetime import timedelta 
import os 


# Functions and classes for loading and using the Inception mode 
1% 

import inception 

# We use Pretty Tensor to define the new classifier. 

import prettytensor as pt 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.12.0-rc0' 


PrettyTensor 版 本 : 


pt. version . 


,OR7 T: 


载 入 CIFAR-10 数 握 
import cifar10 


cirfa10 模 块 中 已 经 定义 好 了 数据 维度 ， 因 此 我 们 需要 时 只 要 导入 就 行 。 


from cifar10 import num_classes 


设置 电脑 上 保存 数据 集 的 路 径 。 


# cifar10.data_path = "data/CIFAR-10/" 


CIFAR-10 数 据 集 大 概 有 163MB， 如 果 给 定 路 径 没 有 找到 文件 的 话 ， 将 会 自动 下 
载 。 


cifar10.maybe_download_and_extract() 


Data has apparently already been downloaded and unpacked. 


载 入 类 别名 称 。 


class names = cifar10.load_class_names() 
class_names 


Loading data: data/CIFAR-10/cifar-10-batches-py/batches.meta 


['airplane', 
'automobile', 
'bird', 
'cat', 
'deer', 
'dog', 
'frog', 
'horse', 
'ship', 
'truck'] 


载 入 训练 集 。 这 个 函数 返回 图 像 、 整 形 分 类 号 码 、 以 及 用 One-Hot 编 码 的 分 类 号 数 
组 ， 称 为 标签 。 


images train, cls train, labels train = cifar10.load_training_da 
ta() 


Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 1 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 2 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 3 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 4 
Loading data: data/CIFAR-10/cifar-10-batches-py/data batch 5 


载 入 测试 集 。 


images test, cls test, labels test = cifari0.load_test_data() 


Loading data: data/CIFAR-10/cifar-10-batches-py/test batch 


现在 已 经 载 入 了 CIFAR-10 数 据 集 ， 它 包含 60,000 张 图 像 以 及 相关 的 标签 (图 像 的 
分 类 ) 。 数 据 集 被 分 为 两 个 独立 的 子 集 ， 即 训练 集 和 测试 集 。 


print("Size of:") 
print("- Training-set:\t\t{}".format(len(images_train))) 
print("- Test-set:\t\t{}".format(len(images_test))) 


Size of: 
- Training-set: 50000 
- Test-set: 10000 


用 来 绘制 图 片 的 帮助 函数 


这 个 函数 用 来 在 3x3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图像 下 面 写 出 卜 实 类 别 和 预测 
类 别 o 


def plot_images(images, cls_true, cls_pred=None, smooth=True): 
assert len(images) == len(cls_true) 


# Create figure with sub-plots. 
fig, axes = plt.subplots(3, 3) 


# Adjust vertical spacing. 
if cls_pred is None: 
hspace = 0.3 
else: 
hspace = 0.6 
fig.subplots_adjust(hspace=hspace, wspace=0.3) 


# Interpolation type. 


if smooth: 

interpolation = 'splinei6' 
else: 

interpolation = 'nearest' 


for i, ax in enumerate(axes.flat): 
# There may be less than 9 images, ensure it doesn't cra 
sh. 
if 1 < len(images): 
# Plot image. 
ax.imshow(images[i], 
interpolation=interpolation) 


# Name of the true class. 
cls true name = class names[cls true[i]] 


# Show true and predicted classes. 
if cls pred is None: 

xlabel = "True: (0)".format(cls true name) 
else: 

4 Name of the predicted class. 

cls pred name - class names[cls pred[i]] 


xlabel = "True: (0)*nPred: (1)".format(cls true . 
name, cls pred name) 


# Show the classes as the label on the x-axis. 
ax.set xlabel(xlabel) 


4 Remove ticks from the plot. 
ax.set xticks([]) 
ax.set yticks([]) 


# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show() 





绘制 几 张 图 像 看 看 数据 是 否 正确 
# Get the first images from the test-set. 
images = images_test[0:9] 


# Get the true classes for those images. 
cls_true = cls_test[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true, smooth=False) 
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下 载 Inception 模 型 


从 网 上 下 载 Inception 模 型 。 这 是 你 保存 数据 文件 的 默认 文件 夹 。 如 果 文 件 夹 不 存在 
就 自动 创建 。 


# inception.data_dir = 'inception/' 


如 果 文 件 夹 中 不 存在 Inception 模 型 ， 就 自动 下 载 。 它 有 85MB >» 
更 多 详情 见 教程 #07。 


inception.maybe_download() 


Downloading Inception v3 Model ... 
Data has apparently already been downloaded and unpacked. 


3 A Inception 2 


载 入 模型 ， 为 图 像 分 类 做 准备 。 


注意 warning 信 息 ， 以 后 可 能 会 导致 程序 运行 失败 。 


model = inception.Inception() 


计算 Transfer-Values 
导入 用 来 从 Inception 模 型 中 获取 transfer-values 的 帮助 函数 。 


from inception import transfer_values_cache 


设置 训练 集 和 测试 集 缓存 文件 的 目录 。 


file path cache train = os.path.join(cifar10.data_path, 'incepti 
on_cifar10_ train pk) 

file path cache test = os.path.join(cifari0.data path, 'inceptio 
n cifar1io test-pkl ) 


print("Processing Inception transfer-values for training-images 


...") 


# Scale images because Inception needs pixels to be between 0 an 
d 255, 

# while the CIFAR-10 functions return pixels between 0.0 and 1.0 
images_scaled = images train * 255.0 


# If transfer-values have already been calculated then reload th 
em, 
# otherwise calculate them and save them to a cache-file. 
transfer_values_train = transfer_values_cache(cache_path=file_pa 
th_cache_train, 

images=images_scal 
ed, 

model=model) 


Processing Inception transfer-values for training-images ... 
- Data loaded from cache-file: data/CIFAR-10/inception_cifar10_t 
rain.pkl 


print("Processing Inception transfer-values for test-images ..." 


) 


# Scale images because Inception needs pixels to be between @ an 
02553 

# while the CIFAR-10 functions return pixels between 0.0 and 1.0 
images_scaled = images_test * 255.0 


# If transfer-values have already been calculated then reload th 
em, 
# otherwise calculate them and save them to a cache-file. 
transfer_values_test = transfer_values_cache(cache_path=file_pat 
h_cache_test, 

images=images_scale 
d, 

model=model) 


Processing Inception transfer-values for test-images ... 
- Data loaded from cache-file: data/CIFAR-10/inception_cifar10_t 
est.pkl 


检查 transfer-values 的 数组 大 小 。 在 训练 集中 有 50,000 张 图 像 ， 每 张 图 像 有 2048 个 
transfer-values ° 


transfer. values train.shape 


(50000, 2048) 


相同 的 ， 在 测试 集中 有 10,000 张 图 像 ， 每 张 图 像 有 2048 个 transfer-values ° 


transfer_values_test.shape 


(10000, 2048) 


绘制 transfer-values 的 帮助 函数 


def plot_transfer_values(i): 
print("Input image:") 


# Plot the i'th image from the test-set. 
plt.imshow(images_test[i], interpolation='nearest') 
plt.show( ) 


print("Transfer-values for the image using Inception model:" 
# Transform the transfer-values into an image. 

img = transfer_values_test[i] 

img = img.reshape((32, 64)) 

# Plot the image for the transfer-values. 


plt.imshow(img, interpolation='nearest', cmap='Reds') 
plt.show() 


plot transfer values(i-16) 


Input image: 





Transfer-values for the image using Inception model: 


N 


N 





plot_transfer_values(i=17) 


Input image: 





Transfer-values for the image using Inception model: 
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transfer-values 的 PCA 分 析 结 果 


用 scikit-learn 里 的 主 成 分 分 析 (PCA), 将 transfer-values 的 数组 维度 从 2048 维 降 到 2 
维 ， 方 便 绘制 。 


from sklearn.decomposition import PCA 
创建 一 个 新 的 PCA-object， 将 目标 数组 维度 设 为 2。 


pca = PCA(n_components=2 ) 


计算 PCA 需 要 一 段 时 间 ， 因 此 将 样本 数 限 制 在 3000。 如 果 你 愿意 ， 可 以 使 用 整个 训 


transfer values = transfer_values_train[0:3000] 
获取 你 选取 的 样本 的 类 别 号 。 

cls = cls_train[0:3000] 
保 数 组 有 3000 份 样本 ,每 个 样本 有 2048 个 transfer-values。 


transfer_values.shape 


(3000, 2048) 


用 PCA 将 transfer-value 从 2048 维 降低 到 2 维 。 


transfer values reduced = pca.fit transform(transfer values) 


数组 现在 有 3000 个 样本 ， 每 个 样本 两 个 值 。 


transfer_values_reduced. shape 


(3000, 2) 


帮助 函数 用 来 绘制 降 维 后 的 transfer-values ° 


def plot_scatter(values, cls): 
# Create a color-map with a different color for each class. 
import matplotlib.cm as cm 
cmap = cm.rainbow(np.linspace(0.0, 1.0, num classes)) 


# Get the color for each sample. 
colors = cmap[cls] 


# Extract the x- and y-values. 
x = values[:, 0] 
y = values[:, 1] 


# Plot it. 
plt.scatter(x, y, color=colors) 
plt.show() 


画 出 用 PCA 降 维 后 的 transfer-values。 用 10 种 不 同 的 颜色 来 表示 CIFAR-10 数 据 集 中 
不 同 的 类 别 。 闫 色 各 自 组 合 在 一 起 ， 但 有 很 多 重合 部 分 。 这 可 能 是 因为 PCA 无 法 正 
确 地 分 高 transfer-values ° 


plot_scatter(transfer_values_reduced, cls) 





transfer-values 的 t-SNE 分 析 结 果 


from sklearn.manifold import TSNE 


另 一 种 降 维 的 方法 是 t-SNE。 不 幸 的 是 ，t-SNE 很 慢 ， 因 此 我 们 先 用 PCA 将 维度 从 
2048 减 少 到 50。 


pca = PCA(n_components=50) 
transfer_values_50d = pca.fit_transform(transfer_values) 


创建 一 个 新 的 t-SNE 对 象 ， 用 来 做 最 后 的 降 维 工作 ， 将 目标 维度 设 为 2 维 。 


tsne = TSNE(n_components=2) 


用 t-SNE 执 行 最 终 的 降 维 。 目 前 在 scikit-learn 中 实现 的 t-SNE 可 能 无 法 处 理 很 多 样本 
的 数据 ， 所 以 如 果 你 用 整个 训练 集 的 话 ， 程 序 可 能 会 崩溃 。 


transfer values reduced = tsne.fit transform(transfer values 50d 


) 


确保 数组 有 3000 份 样本 ,每 个 样本 有 两 个 transfer-values ° 


transfer_values_reduced. shape 


(3000, 2) 


画 出 用 t-SNE 降 低 至 二 维 的 transfer-values， 相 比 上 面 PCA 的 结果 ， 它 有 更 好 的 分 离 
度 。 


这 意味 着 由 Inception 模 型 得 到 的 transfer-values 似 乎 包含 了 足够 多 的 信息 ， 可 以 对 
CIFAR-10 图 像 进行 分 类 ， 然 而 还 是 有 一 些 重 县 部 分 ， 说 明 分 离 并 不 完美 。 


plot_scatter(transfer_values_reduced, cls) 





TensorFlow 中 的 新 分 类 器 


在 我 们 将 会 在 TensorFlow 中 创建 一 个 新 的 神经 网 络 。 这 个 网 络 会 把 Inception 模 型 中 
的 transfer-values 作 为 输入 ， 然 后 输出 CIFAR-10 图 像 的 预测 类 别 。 


这 里 假定 你 已 经 熟悉 如 何在 TensorFlow 中 建立 神经 网 络 ， 否 则 请 阅读 教程 #03 © 
占 位 符 (Placeholder) &= 


首先 需要 找到 transfer-values 的 数组 长 度 ， 它 是 保存 在 Inception 模 型 对 象 中 的 一 个 


a 
LEO 


transfer_len = model.transfer_len 


现在 为 输入 的 transfer-values 创 建 一 个 placeholder 交 量 ， 输 入 到 我 们 新 建 的 网 络 
中 。 变 量 的 形状 是 [None, transfer len] * None 表示 它 的 输入 数组 包含 任意 
数量 的 样本 ， 每 个 样本 元 素 个 数 为 2048， 即 transfer len 。 


x = tf.placeholder(tf.float32, shape=[None, transfer_len], name= 


为 输入 图 像 的 真实 类 型 标签 定义 另外 一 个 placeholder 变 量 。 这 是 One-Hot 编 码 的 数 
组 ， 包 含 10 个 元 素 ， 每 个 元 素 代 表 了 数据 集中 的 一 种 可 能 类 别 。 


y_true = tf.placeholder(tf.float32, shape=[None, num_classes], n 
ame-'y true') 


THERA A EK HF] AOE RAF o ids SET — ^ placeholder € = >» 


y_true_cls = tf.argmax(y_true, dimension=1) 


神经 网 络 


创建 在 CIFAR-10 数 据 集 上 做 分 类 的 神经 网 络 。 它 将 Inception 模 型 得 到 的 transfer- 
values 作 为 输入 ， 保 存在 placeholder 变 量 x 中 。 网 络 输出 预测 的 类 别 y pred 。 


教程 #03 中 有 更 多 使 用 Pretty Tensor 构 造 神经 网 络 的 细节 。 


# Wrap the transfer-values as a Pretty Tensor object. 


X pretty = pt.wrap(x) 
with pt.defaults_scope(activation_fn=tf.nn.relu): 
y_pred, loss = x_pretty.\ 
fully_connected(size=1024, name='layer_fc1').\ 


softmax_classifier(num_classes=num_classes, labels=y_tru 
e) 


优化 方法 
创建 一 个 变量 来 记录 当前 优化 迭代 的 次 数 。 


global step = tf.Variable(initial value=0, 
name-'global step', trainable-False) 


优化 新 的 神经 网 络 的 方法 。 


optimizer = tf.train.AdamOptimizer(learning rate-ie-4).minimize( 
loss, global_step) 


分 类 X Eu 3E 
网 络 的 输出 y_pred 是 一 个 包含 10 个 元 素 的 数组 。 类 别 号 是 数组 中 最 大 元 素 的 索引 。 


y_pred_cls = tf.argmax(y_pred, dimension=1) 
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correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


ei 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 成 1， 然 后 计 
算 这 些 值 的 平均 数 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


运行 TensorFlow 
创建 TensorFlow 会 话 (session ) 
一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 图 。 


session = tf.Session() 


初始 化 变量 
我 们 需要 在 开始 优化 weights 和 biases 变 量 之 前 对 它们 进行 初始 化 。 


session.run(tf.global_variables_initializer()) 


获取 随机 训练 batch 的 帮助 函数 


训练 集中 有 50,000 张 图 像 (以 及 保存 transfer-values 的 数组 ) 。 用 这 些 图 像 
(transfer-vlues) 计算 模型 的 梯度 会 花 很 多 时 间 。 因 此 ， 我 们 在 优化 器 的 每 次 迭代 
只 用 到 了 一 小 部 分 的 图 像 (tansfer-vlues) 。 


如 果 内 存 耗 尽 导 致电 脑 死 机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 数量 ， 但 同时 可 能 还 
需要 更 优化 的 迭代 。 


train batch size = 64 


函数 用 来 从 训练 集中 选择 随机 batch 的 transfer-vlues ° 


def random_batch(): 
# Number of images (transfer-values) in the training-set. 
num_images = len(transfer_values_train) 


# Create a random index. 

idx = np.random.choice(num_images, 
size=train_batch_size, 
replace=False) 


# Use the random index to select random x and y-values. 

# We use the transfer-values instead of images as x-values. 
x_batch transfer_values_train[idx] 

y_batch labels_train[idx] 


return x_batch, y_batch 


执行 优化 迭代 的 帮助 函数 


汐 数 用 来 执行 一 定数 量 的 优化 迭代 ， 以 此 来 逐渐 改善 网 络 层 的 变量 。 在 每 次 迭代 
中 ， 会 从 训练 集中 选择 新 的 一 批 数 据 ， 然 后 TensorFlow 在 这 些 训 练 样 本 上 执行 优 
化 。 每 100 次 迭代 会 打印 出 进度 





def optimize(num_iterations): 
# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(num iterations): 
# Get a batch of training examples. 
# x batch now holds a batch of images (transfer -values) 
and 
# y true batch are the true labels for those images. 
x_batch, y_true_batch = random batch() 


# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed dict train = {x: x_batch, 

y_true: y_true_batch} 


# Run the optimizer using this batch of training data. 
# TensorFlow assigns the variables in feed_dict_train 
# to the placeholder variables and then runs the optimiz 
er. 
# We also want to retrieve the global_step counter. 
i_global, _ = session.run([global_step, optimizer], 
feed_dict=feed_dict_train) 


# Print status to screen every 100 iterations (and last). 


if (i global % 100 == 0) or (i == num iterations - 1): 
# Calculate the accuracy on the training-batch. 
batch acc = session.run(accuracy, 

feed dict-feed dict train) 


# Print status. 

msg = "Global Step: (0:26), Training Batch Accuracy: 
fies SE 

print(msg.format(i global, batch acc)) 


# Ending time. 
end time - time.time() 


# Difference between start and end-times. 
time dif - end time - start time 


# Print the time-usage. 


print("Time usage: " + str(timedelta(seconds-int(round(time 


dif))))) 
[E |) 


展示 结果 的 帮助 函数 
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绘制 错误 样本 的 帮助 函数 


函数 用 来 绘制 测试 集中 被 误 分 类 的 样本 。 


def plot example errors(cls pred, correct): 


# 


This function is called from print_test_accuracy() below. 


# cls_pred is an array of the predicted class-number for 

# all images in the test-set. 

# correct is a boolean array whether the predicted class 

# is equal to the true class for each image in the test-set. 
# Negate the boolean array. 

incorrect = (correct == False) 

# Get the images from the test-set that have been 

# incorrectly classified. 


images = images_test[incorrect] 


# 


Get the predicted classes for those images. 


cls_pred = cls_pred[incorrect ] 


# 


Get the true classes for those images. 


cls_true = cls_test[incorrect ] 


n 


# 


= min(9, len(images) ) 


Plot the first n images. 


plot_images(images=images[0:n], 


cls_true=cls_true[0:n], 
cls_pred=cls_pred[0:n]) 
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# Import a function from sklearn to calculate the confusion-matr 


gx 
from sklearn.metrics import confusion matrix 


def plot confusion matrix(cls pred): 
# This is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# Get the confusion matrix using sklearn. 


cm = confusion matrix(y true-cls test, # True class for tes 


t-set. 
y pred-cls pred) # Predicted class. 


# Print the confusion matrix as text. 

for i in range(num classes): 
4 Append the class-name to each line. 
class name = "({}) {}".format(i, class names[i]) 
print(cm[i, :], class name) 


# Print the class-numbers for easy reference. 


class numbers = [" ({0})".format(i) for i in range(num class 


es)] 


print("".join(class numbers)) 


计算 分 类 的 帮助 函数 


这 个 函数 用 来 计算 图 像 的 预测 类 别 ， 同 时 返回 一 个 代表 每 张 图 像 分 类 是 否 正 确 的 布 


尔 数 组 。 


由 于 计算 可 能 会 耗费 太 多 内 存 ， 就 分 批 处 理 。 如 果 你 的 电脑 死机 了 ， 试 着 降低 
batch-size ° 


) ^2 


# Split the data-set in batches of this size to limit RAM usage. 


batch_size 


= 256 


def predict_cls(transfer_values, labels, cls_true): 
# Number of images. 
num_images = len(transfer_values) 


# Allocate an array for the predicted classes which 
# will be calculated in batches and filled into this array. 
cls_pred = np.zeros(shape=num_images, dtype=np.int) 


# Now 


calculate the predicted classes for the batches. 


# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


# The 
i=0 


while 
H 


j 
# 
# 


starting index for the next batch is denoted i. 


i < num_images: 
The ending index for the next batch is denoted j. 
= min(i + batch_size, num_images) 


Create a feed-dict with the images and labels 
between index i and j. 


feed_dict = {x: transfer_values[i:j], 


# 


y_true: labels[i:j]} 


Calculate the predicted class using TensorFlow. 


cls_pred[i:j] = session.run(y_pred_cls, feed_dict=feed_d 


ict) 
# 
# 
i 


Set the start-index for the next batch to the 
end-index of the current batch. 


=) 


# Create a boolean array whether each image is correctly cla 


ssified. 


correct = (cls_true == cls_pred) 


return correct, cls_pred 


计算 测试 集 上 的 预测 类 别 。 


def predict cis test(): 
return predict cls(transfer values = transfer values test, 


labels - labels test, 
cls true - cls test) 
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计算 分 类 准确 率 的 帮助 函数 


这 个 函数 计算 了 给 定 布尔 数组 的 分 类 准确 率 ， 布 尔 数组 表示 每 张 图 像 是 否 被 正确 分 
类 。 比 如 ， 
cls_accuracy([True, True, False, False, False]) = 2/5 = 0.4 ° 


def classification_accuracy(correct): 
# When averaging a boolean array, False means © and True mea 
i E So we are calculating: number of True / len(correct) which 
» # the same as the classification accuracy. 
4 Return the classification accuracy 


# and the number of correct classifications. 
return correct.mean(), correct.sum() 


展示 分 类 准确 率 的 帮助 函数 
函数 用 来 打印 测试 集 上 的 分 类 准确 率 。 


为 测试 集 上 的 所 有 图 片 计 草 分 类 会 花费 一 段 时 间 ， 因 此 我 们 直接 从 这 个 函数 里 调用 
上 面 的 函数 ， 这 样 就 不 用 每 个 函数 都 重新 计算 分 类 。 


def print_test_accuracy(show_example_errors=False, 
show_confusion_matrix=False): 


# For all the images in the test-set, 

# calculate the predicted classes and whether they are corre 
CIE. 

correct, cls_pred = predict_cls_test() 


# Classification accuracy and the number of correct classifi 
cations. 
acc, num_correct = classification_accuracy(correct) 


# Number of images being classified. 
num_images = len(correct) 


# Print the accuracy. 
msg = "Accuracy on Test-Set: {0:.1%} ({1} / {2})" 
print(msg.format(acc, num_correct, num_images) ) 


# Plot some examples of mis-classifications, if desired. 
if show_example_errors: 
print("Example errors:") 
plot_example_errors(cls_pred=cls_pred, correct=correct) 
# Plot the confusion matrix, if desired. 
if show_confusion_matrix: 


print("Confusion Matrix:") 
plot_confusion_matrix(cls_pred=cls_pred) 


ER 
优化 之 前 的 性 能 


测试 集 上 的 准确 度 很 低 ， 这 是 由 于 模型 只 做 了 初始 化 ， 并 没 做 任何 优化 ， 所 以 它 只 
是 对 图 像 做 随机 分 类 。 


print_test_accuracy(show_example_errors=False, 


show_confusion_matrix=False) 


Accuracy on Test-Set: 9.4% (939 / 10000) 


10,000 次 优化 迭代 后 的 性 能 


在 10,000 次 优化 迭代 之 后 ， 测 试 集 上 的 分 类 准确 率 大 约 为 90%。 相 比 之 下 ， 之 前 教 


程 #06 中 的 准确 率 低 于 80% 。 


optimize(num_iterations=10000) 
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Global Step: 
Global Step: 
Time usage: 0:00:32 


9900, Training Batch Accuracy: 
10000, Training Batch Accuracy: 100.0% 


print_test_accuracy(show_example_errors=True, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 90.7% (9069 / 10000) 


Example errors: 





True: horse 





ship 
frog 


Pred: cat 





True: airplane 


Pred: truck 


Confusion Matrix: 
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Pred: frog 
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Pred: bird 








True: automobile 
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现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 施 资源。 注意， 我 们 需 
要 关闭 两 个 TensorFlow-session， 每 个 模型 对 象 各 有 一 个 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# model.close() 

# session.close() 


E 


^ 


DIN 


ZUBE #06 中 ， 我 们 在 一 台 笔 记 本 电脑 上 花 了 15 个 小 时 来 训练 一 个 神经 网 络 ， 
用 来 对 CIFAR-10 数 据 集 做 分 类 ， 它 在 测试 集 上 的 准确 率 大 约 80%。 


在 这 篇 教程 中 ， 我 们 使 用 教程 #07 中 的 Inception 模 型 ， 来 获取 在 CIFAR-10 数 据 集 
上 大 概 90% 的 分 类 准确 率 。 我 们 将 所 有 CIFAR-10 数 据 集中 的 图 像 输入 到 Inception 
模型 中 ， 然 后 在 最 终 分 类 层 之 前 获取 transfer-values。 接 着 创建 另外 一 个 神经 网 

络 ， 它 将 transfer-values 作 为 输入 ， 生 成 一 个 CIFAR-10 类 别 作为 输出 。 


CIFAR-10 数 据 集 包含 60,000 张 图 像 。 在 一 台 没 有 GPU 的 电脑 上 ， 大 约 花 了 6 个 小 时 
来 计算 Inception 模 型 对 这 些 图 像 的 transfer-values。 在 这 些 transfer-values 上 训练 一 
个 新 的 分 类 器 只 需 几 分 钟 。 两 部 分 时 间 加 起 来 ， 这 种 迁移 学 习 比 直接 为 CIFRA-10 
数据 集训 练 一 个 神经 网 络 要 快 一 们 以上， 并 且 它 能 得 到 更 高 的 分 类 准确 率 。 


因此 ， 用 Inception 模 型 做 迁移 学 习 ， 对 于 在 自己 的 数据 集 上 建立 一 个 图 像 分 类 器 是 
很 有 帮助 的 。 


练习 
下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建 议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 
在 你 对 这 个 Notebook 进 行 修 改 之 前 ， 可 能 需要 先 备份 一 下 。 
e 试 着 在 PCA 和 t-SNE 中 使 用 整个 训练 集 。 会 出 现 什么 情况 ? 


° EE 个 类 器 改变 神经 网 络 。 如 果 你 删 掉 全 连接 层 或 添加 更 多 的 全 连接 层 
会 发 生 什么 


e 如 果 你 执行 更 多 或 更 少 的 迭代 会 出 现 什么 情况 ? 
e 如 果 你 改变 优化 器 的 learning rate 会 发 生 什 


AZ 
。 如 果 你 像 在 教程 #06 中 的 那样 ， 对 CIFAR-10 图 像 进行 捏 曲 呢 ? 你 将 不 能 使 用 绥 
存 ， 因 为 每 张 图 都 不 同 。 


e 试 着 用 MNIST 数 据 集 来 代替 CIFAR-10 数 据 集 。 


? 


e 向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #09 


视频 数据 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻 译 thrillerist/Github 


介绍 


上 一 篇 教程 #08 介 绍 了 如 何在 CIFAR-10 数 据 集 上 用 预 训 练 的 Inception 模 型 来 做 迁移 
学 习 (Transfer Learning) 。 本 文 将 会 展示 如 何 使 用 你 自己 的 图 像 。 


为 了 示范 ， 我 们 使 用 新 的 数据 集 Knifey-Spoony， 它 包含 了 上 千张 不 同 背 景 下 的 餐 
刀 、 义 子 和 又 子 的 图 像 。 训 练 集 有 4170 张 图 像 ， 测 试 集 有 530 张 。 类 别 为 knifey ` 
sppony 和 forky， 这 是 对 辛普森 一 家 的 引用 。 


knifey-spoony 数 据 集中 的 图 像 是 用 一 个 简单 的 Python 脚本 从 视频 文件 中 获取 的 ， 脚 
本 在 Linux 上 运行 (CBB avconv 程序 将 视频 转 成 图 像 ) 。 这 让 你 可 以 很 快 地 从 
几 分 钟 的 录像 视频 中 创建 包含 上 千张 图 像 的 数据 集 。 


本 文 基于 上 一 篇 教程 ， 你 需要 了 解 熟 去 教程 #08 中 oS 千 移 学 习 ， 以 及 之 前 教程 中 关 
于 如 何在 TensorFlow 中 创建 和 训练 神经 网 络 的 部 分 


流程 图 


下 图 展示 了 用 Inception 模 型 做 迁移 学 习 时 数据 的 流向 。 首 先 ， 我 们 在 Inception 模 型 
中 输入 并 处 理 一 张 图 像 。 在 模型 最 终 的 分 类 层 之 前 ， 将 所 谓 的 Transfer- Values 保 存 
到 缓存 文件 中 。 


这 与 在 教程 #08 中 做 的 相似 ， 只 是 现在 用 Knifey-Spoony 数 据 集 代替 CIFAR-10， 这 
说 明 我 们 将 jpeg 图 像 送 到 Inception 模 型 中 ， 而 不 是 使 用 包含 图 像 数 据 的 numpy 数 
组 。 


当 新 数据 集 里 的 所 有 图 像 都 用 Inception 处 理 过 ， 并 且 生成 的 transfer-values 都 保存 
到 缓存 文件 之 后 ， 我 们 可 以 将 这 些 transfer-values 作 为 其 它 神经 网 络 的 输入 。 接 着 
用 新 数据 集中 的 类 别 来 训练 第 二 个 神经 网 络 ， 因 此 ， 网 络 基于 Inception 模 型 的 
transfer-values 来 学 习 如 何 分 类 图 像 。 


2 ' inception MN ABK FRR RR FE] 448 8 RGA HbA WEE MOE SE 
9 分 类 工作 。 


from IPython.display import Image, display 
Image('images/09 transfer learning flowchart.png') 
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%matplotlib inline 

import matplotlib.pyplot as plt 
import tensorflow as tf 

import numpy as np 

import time 

from datetime import timedelta 
import os 


# Functions and classes for loading and using the Inception mode 
Je 
import inception 


# We use Pretty Tensor to define the new classifier. 
import prettytensor as pt 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.12.0-rc0' 


PrettyTensor 版 本 : 


pt. version . 


ioo. d 


载 入 数据 

import knifey 

knifey 模块 中 已 经 定义 好 了 数据 维度 ， 因 此 我 们 需要 时 只 要 导入 就 行 。 
from knifey import num_classes 


设置 电脑 上 保存 数据 集 的 路 径 。 


/W 


# knifey.data dir = "data/knifey-spoony/ 


设置 本 教程 中 保存 缓存 文件 的 文件 夹 。 


data_dir = knifey.data_dir 


Knifey-Spoony 数 据 集 大 概 有 22MB， 如 果 给 定 路 径 没 有 找到 文件 的 话 ， 将 会 自动 下 
载 o 


knifey.maybe download and extract() 


Data has apparently already been downloaded and unpacked. 


现在 载 入 数据 集 。 程 序 会 遍历 子 文件 夹 来 获取 所 有 *.jpg 格式 的 图 像 ， 然 后 将 文 
件 名 放 入 训练 集 和 测试 集 的 两 个 列表 中 。 实 际 上 此 时 并 未 载 入 图 像 ， 在 计算 好 
transfer-values 之 后 再 执行 载 入 。 


文件 名 列表 将 会 保存 到 硬盘 上 ， 我 们 必须 确保 它们 按 之 后 重 载 数 据 集 的 顺序 排列 。 
这 个 很 重要 ， 这 样 我 们 就 能 知道 哪些 图 像 对 应 哪些 transfer-values。 


dataset = knifey.load() 


Creating dataset from the files in: data/knifey-spoony/ 
- Data loaded from cache-file: data/knifey-spoony/knifey-spoony. 
pkl 


你 的 数据 


你 可 以 用 自己 的 图 像 来 代替 knifey-spoony 数 据 集 。 需 要 创建 一 个 dataset.py 模 
块 中 的 DataSet 对 象 。 最 好 的 方法 是 使 用 load cache() 封装 函数 ， 它 会 自动 将 
图 像 列 表 保 存 到 缓存 文件 中 ， 因 此 你 需要 确保 列表 顺序 和 后 面 生成 的 transfer- 
values 顺 顺序 一 致 。 


每 个 类 别 的 图 像 需要 组 织 在 各 自 的 文件 夹 里 。 dataset.py 模块 中 的 文档 有 更 多 
im o 


4 This is the code you would run to load your own image-files. 
4 It has been commented out so it won't run now. 


4 from dataset import load cached 

4 dataset = load cached(cache path-'my dataset cache.pkl', in di 
r='my_images/' ) 

# num_classes = dataset.num_classes 


训练 集 和 测试 集 
获取 类 别名 。 


class names = dataset.class names 
class names 


['forky', 'knifey', 'spoony'] 


获取 测试 集 。 它 返回 图 像 的 文件 路 径 、 整形 类 别 号 和 One-Hot 编 码 的 类 别 号 数组 ， 
称 为 标签 。 


image_paths_train, cls_train, labels_train = dataset.get_trainin 
g_set() 


打印 第 一 个 图 像 地 址 ， 看 看 是 否 正确 。 


image_paths_train[0] 


'/home/magnus/development/TensorFlow-Tutorials/data/knifey-spoon 
y/forky/forky-05-0023.jpg' 


获取 测试 集 。 
image paths test, cls test, labels test = dataset.get_test_set() 


打印 第 一 个 图 像 地 址 ， 看 看 是 否 正确 。 


image_paths_test[0] 


'/home/magnus/development/TensorFlow-Tutorials/data/knifey-spoon 
y/forky/test/forky-test-01-0163.jpg' 


现在 已 经 载 入 了 Knifey-Spoony 数 据 集 ， 它 包含 4700 张 图 像 以 及 相应 的 标签 (图像 
的 分 类 ) 。 数 据 集 被 手动 地 分 为 两 个 子 集 ， 训 练 集 和 测试 集 。 


print( "Size of) 
print("- Training-set:\t\t{}".format(len(image_paths_train))) 
print("- Test-set:\t\t{}".format(len(image_paths_test))) 


Size of: 
- Training-set: 4170 
- Test-set: 530 


用 来 绘制 图 像 的 帮助 函数 


这 个 函数 用 来 在 3x3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图 像 下 面 写 出 上 申 实 类 别 和 预测 
类 别 。 


def plot_images(images, cls_true, cls_pred=None, smooth=True): 


sh. 


assert len(images) == len(cls_true) 


# Create figure with sub-plots. 


fig, axes 


plt.subplots(3, 3) 


# Adjust vertical spacing. 
if cls_pred is None: 


hspace 


else: 


0.3 


hspace = 0.6 
fig.subplots_adjust(hspace=hspace, wspace=0.3) 


# Interpolation type. 


if smooth: 

interpolation = 'splinei6' 
else: 

interpolation = 'nearest' 


for i, ax in enumerate(axes.flat): 


# There may be less than 9 images, 


if i < len(images): 
# Plot image. 
ax.imshow(images[i], 


interpolation=interpolation) 


# Name of the true class. 
cls true name = class names[cls true[i]] 


# Show true and predicted classes. 
if cls pred is None: 


xlabel = "True: (0)".format(cls true name) 


else: 


4 Name of the predicted class. 
cls pred name - class names[cls pred[i]] 


ensure it doesn't cra 


xlabel = "True: (0)*nPred: (1)".format(cls true . 
name, cls pred name) 


# Show the classes as the label on the x-axis. 
ax.set xlabel(xlabel) 


4 Remove ticks from the plot. 
ax.set xticks([]) 
ax.set yticks([]) 


# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 


plt.show() 


N 
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载 入 图 像 的 帮助 函数 


数据 集 并 未 载 入 实际 图 像 ， 在 训练 集 和 测试 集中 各 有 一 个 图 像 (地 址 ) 列表 。 下 面 


的 帮助 函数 载 入 了 一 些 图 像 文件 。 


from matplotlib.image import imread 
def load_images(image_paths): 
# Load the images from disk. 
images = [imread(path) for path in image paths] 


# Convert to a numpy array and return it. 
return np.asarray(images) 


绘制 一 些 图 像 看 看 数据 是 否 正 确 
# Load the first images from the test-set. 
images = load_images(image_paths=image_paths_test[0:9]) 


# Get the true classes for those images. 
cls_true = cls_test[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true, smooth=True) 
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从 网 上 下 载 Inception 模 型 。 这 是 你 保存 数据 文件 的 默认 文件 夹 。 如 果 文 件 夹 不 存在 
就 自动 创建 。 


# inception.data_dir = 'inception/ 
如 果 文 件 夹 中 不 存在 Inception 模 型 ， 就 自动 下 载 。 它 有 85MB 。 
更 多 详情 见 教 程 #07。 


inception.maybe_download() 


Downloading Inception v3 Model ... 
Data has apparently already been downloaded and unpacked. 


载 入 Inception 模 型 


载 入 模型 ， 为 图 像 分 类 做 准备 。 


注意 warning 人 信息， 以 后 可 能 会 导致 程序 运行 失败 。 


model = inception.Inception() 


计算 Transfer-Values 
导入 用 来 从 Inception 模 型 中 获取 transfer-values 的 帮助 函数 。 


from inception import transfer_values_cache 


设置 训练 集 和 测试 集 缓存 文件 的 目录 。 


file path cache train = os.path.join(data_dir, 'inception-knifey 
-train.pkl') 

file path cache test - os.path.join(data dir, 'inception-knifey- 
test.pkl') 


print("Processing Inception transfer-values for training-images 


o) 


4 If transfer-values have already been calculated then reload th 
em, 
4 otherwise calculate them and save them to a cache-file. 
transfer values train - transfer values cache(cache path-file pa 
th cache train, 

image paths-image 
paths train, 

model=model) 


Processing Inception transfer-values for training-images ... 
- Data loaded from cache-file: data/knifey-spoony/inception-knif 
ey-train.pkl 


print("Processing Inception transfer-values for test-images 


) 


# If transfer-values have already been calculated then reload th 
em, 
# otherwise calculate them and save them to a cache-file. 
transfer_values_test = transfer_values_cache(cache_path=file_pat 
h_cache_test, 

image_paths=image_p 
aths_test, 

model=model) 


Processing Inception transfer-values for test-images ... 
- Data loaded from cache-file: data/knifey-spoony/inception-knif 
ey-test.pkl 


检查 transfer-values 的 数组 大 小 。 在 训练 集中 有 4170 张 图 像 ， 每 张 图 像 有 2048 个 
transfer-values ° 


transfer. values train.shape 


(4170, 2048) 


同样 ， 在 测试 集中 有 530 张 图 像 ， 每 张 图 像 有 2048 个 transfer-values ° 


transfer_values_test.shape 


(530, 2048) 


绘制 transfer-values 的 帮助 函数 


def plot_transfer_values(i): 
print("Input image:") 


# Plot the i'th image from the test-set. 
image = imread(image_paths_test[i]) 
plt.imshow(image, interpolation='spline16' ) 
plt.show( ) 


print("Transfer-values for the image using Inception model:" 
# Transform the transfer-values into an image. 

img = transfer_values_test[i] 

img = img.reshape((32, 64)) 

# Plot the image for the transfer-values. 


plt.imshow(img, interpolation='nearest', cmap='Reds') 
plt.show( ) 


plot_transfer_values(i=100) 


Input image: 


50 


100 


150 
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model: 





plot_transfer_values(i=300) 


Input image: 
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transfer-values 的 PCA 分 析 结 果 


用 scikit-learn 里 的 主 成 分 分 析 (PCA), 将 transfer-values 的 数组 维度 从 2048 维 降 到 2 
维 ， 方 便 绘 制 。 


from sklearn.decomposition import PCA 
创建 一 个 新 的 PCA-object， 将 目标 数组 维度 设 为 2。 
pca = PCA(n_components=2) 


243 


计算 PCA 需 要 一 段 时 间 。 本 文 的 数据 集 并 不 是 很 大 ， 否 则 你 需要 挑选 训练 集中 的 一 
小 部 分 ， 来 加 速 计 草 。 


# transfer_values = transfer_values_train[0:3000] 
transfer_values = transfer_values_train 


获取 你 选取 的 样本 的 类 别 号 。 


# cls = cls_train[0:3000] 
cls = cls_train 


保 数 组 有 4170 份 样本 ,每 个 样本 有 2048 个 transfer-values。 


transfer_values.shape 


(4170, 2048) 


用 PCA 将 transfer-value 从 2048 维 降低 到 2 维 © 


transfer values reduced = pca.fit transform(transfer values) 


数组 现在 有 4170 个 样本 ， 每 个 样本 两 个 值 。 


transfer_values_reduced. shape 


(4170, 2) 


帮助 函数 用 来 绘制 降 维 后 的 transfer-values > 


def plot_scatter(values, cls): 
# Create a color-map with a different color for each class. 
import matplotlib.cm as cm 
cmap = cm.rainbow(np.linspace(0.0, 1.0, num_classes)) 


# Create an index with a random permutation to make a better 
plot. 
idx - np.random.permutation(len(values)) 


# Get the color for each sample. 
colors = cmap[cls[idx]] 


# Extract the x- and y-values. 
X = values[idx, 0] 
y - values[idx, 1] 


# Plot it. 
plt.scatter(x, y, color=colors, alpha=0.5) 
plt.show() 


画 出 用 PCA 降 维 后 的 transfer-values。 用 3 种 不 同 的 颜色 来 表示 Knifey-Spoony 数 据 
集中 不 同 的 类 别 。 顾 色 有 很 多 重 受 部 分 。 这 可 能 是 因为 PCA 无 法 正确 地 分 离 
transfer-values ° 


plot_scatter(transfer_values_reduced, cls=cls) 





transfer-values “J t-SNE 777 24 7 


from sklearn.manifold import TSNE 


另 一 种 降 维 的 方法 是 -SNE。 不 幸 的 是 ，t-SNE 很 慢 ， 因 此 我 们 先 用 PCA 将 维度 从 
2048 减 少 到 50。 


pca = PCA(n_components=50) 
transfer values 50d = pca.fit transform(transfer values) 


创建 一 个 新 的 t-SNE 对 象 ， 用 来 做 最 后 的 降 维 工作 ， 将 目标 维度 设 为 2 维 。 


tsne = TSNE(n_components=2) 


用 tSNE 执 行 最 终 的 降 维 。 目 前 在 scikit-learn 中 实现 的 t-SNE 可 能 无 法 处 理 很 多 样本 
的 数据 ， 所 以 如 果 你 用 整个 训练 集 的 话 ， 程 序 可 能 会 崩溃 。 


transfer values reduced = tsne.fit transform(transfer values 50d 


) 


确保 数组 有 4170 份 样本 ,每 个 样本 有 两 个 transfer-values。 


transfer_values_reduced. shape 


(4170, 2) 


画 出 用 t-SNE 降 低 至 二 维 的 transfer-values， 相 比 上 面 PCA 的 结果 ， 它 有 更 好 的 分 
R o 


意味 着 a 型 得 到 的 transfer-values 似 乎 包含 了 足够 多 的 信息 ， 可 以 对 
nn -Sponny Fl 3t 4127 & > fA ait AU -LERRA 分 ， 说 明 分 离 并 不 完美 。 


plot_scatter(transfer_values_reduced, cls=cls) 





TensorFlow 中 的 新 分 类 器 


在 我 们 将 会 在 TensorFlow 中 创建 一 个 新 的 神经 网 络 。 这 个 网 络 会 把 Inception 模 型 中 
的 transfer-values 作 为 输入 ， 然 后 输出 Knifey-Spoony 图 像 的 预测 类 别 。 


这 里 假定 你 已 经 熟悉 如 何在 TensorFlow 中 建立 神经 网 络 ， 否 则 请 阅读 教程 #03。 
占 位 符 (Placeholder) X € 


首先 需要 找到 transfer-values 的 数组 长 度 ， 它 是 保存 在 Inception 模 型 对 象 中 的 一 个 


am 2 
ZEO” 


transfer_len = model.transfer_len 


现在 为 输入 的 transfer-values 创 建 一 个 placeholder 变 量 ， 输 入 到 我 们 新 建 的 网 络 
中 。 变 量 的 形状 是 [None, transfer len] ， None 表示 它 的 输入 数组 包含 任意 
数量 的 样本 ， 每 个 样本 元 素 个 数 为 2048， 即 transfer len ° 


x = tf.placeholder(tf.float32, shape=[None, transfer_len], name= 
x) 


29 A A BARA ET RAKKE LA ?F — ^ placeholder € € » 3x 4 One-Hot/A 5 49 žr 
组 ， 包 含 10 个 元 素 ， 每 个 元 素 代 表 了 数据 集中 的 一 种 可 能 类 别 。 


y_true = tf.placeholder(tf.float32, shape=[None, num_classes], n 
ame-'y true') 


计算 代表 昌 实 类 别 的 整形 数字 。 这 也 可 能 是 一 个 placeholder 变 量 。 


y_true_cls = tf.argmax(y_true, dimension=1) 


神经 网 络 


创建 在 Knifey-Spoony 数 据 集 上 做 分 类 的 神经 网 络 。 它 将 Inception 模 型 得 到 的 
transfer-values 作 为 输入 ， 保 存在 placeholder 变 量 x 中 。 网 络 输出 预测 的 类 
别 y pred » 


教程 #03 中 有 更 多 使 用 Pretty Tensor 构 造 神经 网 络 的 细节 。 


Wrap the transfer-values as a Pretty Tensor object. 
X pretty = pt.wrap(x) 


with pt.defaults_scope(activation_fn=tf.nn.relu): 
y_pred, loss = x_pretty.\ 
fully_connected(size=1024, name='layer_fc1').\ 
softmax_classifier(num_classes=num_classes, labels=y_tru 
e) 


优化 方法 
创建 一 个 变量 来 记录 当前 优化 近代 的 次 数 。 


global_step = tf.Variable(initial_value=0, 
name='global_step', trainable=False) 


优化 新 的 神经 网 络 的 方法 。 


optimizer = tf.train.AdamOptimizer(learning rate-ie-4).minimize( 
loss, global_step) 


FRAME 


网 络 的 输出 y pred 是 一 个 包含 3 个 元 素 的 数组 。 类 别 号 是 数组 中 最 大 元 素 的 索 
引 。 


y pred cls = tf.argmax(y_pred, dimension=1) 


创建 一 个 布尔 向 量 ， 表 示 每 张 图 像 的 丨 实 类 别 是 否 与 预测 类 别 相同 。 


correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


y a 


2 点 型 向 量 ， 这 样子 False 就 变 成 0，True 变 成 1， 然 后 计 
算 这 些 值 的 平均 数 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


运行 TensorFlow 
创建 TensorFlow 会 话 (session ) 
一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 


session = tf.Session() 


初始 化 变量 
我 们 需要 在 开始 优化 weights 和 biases 变 量 之 前 对 它们 进行 初始 化 。 


session.run(tf.global_variables_initializer()) 


获取 随机 训练 batch 的 帮助 函数 

训练 集中 有 4170 张 图 像 (以 及 保存 transfer-values 的 数组 ) 。 用 这 些 图 像 
(transfer-vlues) 计算 模型 的 梯度 会 花 很 多 时 间 。 因 此 ， 我 们 在 优化 器 的 每 次 迭代 

里 只 用 到 了 一 小 部 分 的 图 像 (transfer-vlues) ° 


如 果 内 存 耗 尽 导 致电 脑 死机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 数量 ， 但 同时 可 能 
需要 更 优化 的 迭代 。 


train batch size = 64 


函数 用 来 从 训练 集中 选择 随机 batch 的 transfer-vlues。 


def random_batch(): 
# Number of images (transfer-values) in the training-set. 
num_images = len(transfer_values_train) 


# Create a random index. 

idx = np.random.choice(num_images, 
size=train_batch_size, 
replace=False) 


# Use the random index to select random x and y-values. 

# We use the transfer-values instead of images as x-values. 
x_batch transfer_values_train[idx] 

y_batch labels_train[idx] 


return x_batch, y_batch 


执行 优化 迭代 的 帮助 函数 


函数 用 来 执行 一 定数 量 的 优化 迭代 ， 以 此 来 逐渐 改善 网 络 层 的 变量 。 在 每 次 迭代 
中 ， 会 从 训练 集中 选择 新 的 一 批 数 据 ， 然 后 TensorFlow 在 这 些 训 练 样本 上 执行 优 
化 。 每 100 次 迭代 会 打印 出 进度 。 


4n bm 3 XE 
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def optimize(num iterations): 
# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(num iterations): 
# Get a batch of training examples. 
# x batch now holds a batch of images (transfer -values) 
and 
# y true batch are the true labels for those images. 
x_batch, y_true_batch = random batch() 


# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed dict train = {x: x_batch, 

y_true: y_true_batch} 


# Run the optimizer using this batch of training data. 
# TensorFlow assigns the variables in feed_dict_train 
# to the placeholder variables and then runs the optimiz 
er. 
# We also want to retrieve the global_step counter. 
i_global, _ = session.run([global_step, optimizer], 
feed_dict=feed_dict_train) 


# Print status to screen every 100 iterations (and last). 


if (i global % 100 == 0) or (i == num iterations - 1): 
# Calculate the accuracy on the training-batch. 
batch acc = session.run(accuracy, 

feed dict-feed dict train) 


# Print status. 

msg = "Global Step: (0:26), Training Batch Accuracy: 
fies SE 

print(msg.format(i global, batch acc)) 


# Ending time. 
end time - time.time() 


# Difference between start and end-times. 
time dif - end time - start time 


# Print the time-usage. 


print("Time usage: " + str(timedelta(seconds-int(round(time 


dif))))) 
[E |) 


展示 结果 的 帮助 函数 
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绘制 


错误 样本 的 帮助 函数 


函数 用 来 绘制 测试 集中 被 误 分 类 的 样本 。 


def plot example errors(cls pred, correct): 


gs. 


绘制 


# This function is called from print_test_accuracy() below. 


# cls_pred is an array of the predicted class-number for 
# all images in the test-set. 


# correct is a boolean array whether the predicted class 
# is equal to the true class for each image in the test-set. 


# Negate the boolean array. 
incorrect = (correct == False) 


# Get the indices for the incorrectly classified images. 
idx = np.flatnonzero(incorrect) 


# Number of images to select, max 9. 
n = min(len(idx), 9) 


# Randomize and select n indices. 

idx = np.random.choice(idx, 
size=n, 
replace=False) 


# Get the predicted classes for those images. 
cls_pred = cls_pred[idx] 


# Get the true classes for those images. 
cls_true = cls_test[idx] 


# Load the corresponding images from the test-set. 
# Note: We cannot do image_paths_test[idx] on lists of strin 


image_paths = [image_paths_test[i] for i in idx] 
images = load_images(image_paths) 


# Plot the images. 

plot_images(images=images, 
cls_true=cls_true, 
cls_pred=cls_pred) 


混淆 (confusion) 4E T4 4 BAK 


# Import a function from sklearn to calculate the confusion-matr 
gx 
from sklearn.metrics import confusion matrix 


def plot confusion matrix(cls pred): 
# This is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# Get the confusion matrix using sklearn. 
cm = confusion matrix(y true-cls test, # True class for tes 
t-set. 
y pred-cls pred) # Predicted class. 


# Print the confusion matrix as text. 

for i in range(num classes): 
4 Append the class-name to each line. 
class name = "({}) {}".format(i, class names[i]) 
print(cm[i, :], class name) 


# Print the class-numbers for easy reference. 
class numbers = [" ({0})".format(i) for i in range(num class 


es)] 


print("".join(class numbers)) 


计算 分 类 的 帮助 函数 


这 个 函数 用 来 计算 图 像 的 预测 类 别 ， 同 时 返回 一 个 代表 每 张 图 像 分 类 是 否 正确 的 布 
尔 数组 。 


由 于 计算 可 能 会 耗费 太 多 内 存 ， 就 分 批 处 理 。 如 果 你 的 电脑 死机 了 ， 试 着 降低 
batch-size ° 


Ol 


CD 


NO 


视频 数据 


# Split the data-set in batches of this size to limit RAM usage. 


batch_size 


= 256 


def predict_cls(transfer_values, labels, cls_true): 
# Number of images. 
num_images = len(transfer_values) 


# Allocate an array for the predicted classes which 
# will be calculated in batches and filled into this array. 
cls_pred = np.zeros(shape=num_images, dtype=np.int) 


# Now 


calculate the predicted classes for the batches. 


# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


# The 
i=0 


while 
H 


j 
# 
# 


starting index for the next batch is denoted i. 


i < num_images: 
The ending index for the next batch is denoted j. 
= min(i + batch_size, num_images) 


Create a feed-dict with the images and labels 
between index i and j. 


feed_dict = {x: transfer_values[i:j], 


# 


y_true: labels[i:j]} 


Calculate the predicted class using TensorFlow. 


cls_pred[i:j] = session.run(y_pred_cls, feed_dict=feed_d 


ict) 
# 
# 
i 


Set the start-index for the next batch to the 
end-index of the current batch. 


=) 


# Create a boolean array whether each image is correctly cla 


ssified. 


correct = (cls_true == cls_pred) 


return correct, cls_pred 


计算 测试 集 上 的 预测 类 别 。 


def predict cis test(): 
return predict cls(transfer values = transfer values test, 


labels - labels test, 
cls true - cls test) 
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计算 分 类 准确 率 的 帮助 函数 


这 个 函数 计算 了 给 定 布尔 数组 的 分 类 准确 率 ， 布 尔 数组 表示 每 张 图 像 是 否 被 正确 分 
类 。 比 如 ， 
cls_accuracy([True, True, False, False, False]) = 2/5 = 0.4 ° 


def classification_accuracy(correct): 
# When averaging a boolean array, False means © and True mea 
i E So we are calculating: number of True / len(correct) which 
» # the same as the classification accuracy. 
4 Return the classification accuracy 


# and the number of correct classifications. 
return correct.mean(), correct.sum() 


展示 分 类 准确 率 的 帮助 函数 
函数 用 来 打印 测试 集 上 的 分 类 准确 率 。 


为 测试 集 上 的 所 有 图 片 计 草 分 类 会 花费 一 段 时 间 ， 因 此 我 们 直接 从 这 个 函数 里 调用 
上 面 的 函数 ， 这 样 就 不 用 每 个 函数 都 重新 计算 分 类 。 


def print_test_accuracy(show_example_errors=False, 
show_confusion_matrix=False): 


# For all the images in the test-set, 

# calculate the predicted classes and whether they are corre 
CIE. 

correct, cls_pred = predict_cls_test() 


# Classification accuracy and the number of correct classifi 
cations. 
acc, num_correct = classification_accuracy(correct) 


# Number of images being classified. 
num_images = len(correct) 


# Print the accuracy. 
msg = "Accuracy on Test-Set: {0:.1%} ({1} / {2})" 
print(msg.format(acc, num_correct, num_images) ) 


# Plot some examples of mis-classifications, if desired. 

if show_example_errors: 
print("Example errors:") 
plot_example_errors(cls_pred=cls_pred, correct=correct) 


# Plot the confusion matrix, if desired. 

if show_confusion_matrix: 
print("Confusion Matrix:") 
plot_confusion_matrix(cls_pred=cls_pred) 


结果 


优化 之 前 的 性 能 


测试 集 上 的 准确 度 很 低 ， 这 是 由 于 模型 只 做 了 初始 化 ， 并 没 做 任何 优化 ， 所 以 它 只 
是 对 图 像 做 随机 分 类 。 


print_test_accuracy(show_example_errors=False, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 30.0% (159 / 530) 
Confusion Matrix: 
[151 0 0] (0) forky 
[122 3 12] (1) knifey 
[237 0 5] (2) spoony 
(0) (1) (2) 





1000 次 优化 迭代 后 的 性 能 
在 1000 次 优化 选 代 之 后 ， 测 试 集 上 的 准确 率 大 约 为 70% 。 


optimize(num_iterations=1000) 


Global Step: 100, Training Batch Accuracy: 95.3% 
Global Step: 200, Training Batch Accuracy: 96.9% 
Global Step: 300, Training Batch Accuracy: 98.4% 
Global Step: 400, Training Batch Accuracy: 100.0% 
Global Step: 500, Training Batch Accuracy: 100.0% 
Global Step: 600, Training Batch Accuracy: 100.0% 
Global Step: 700, Training Batch Accuracy: 100.0% 
Global Step: 800, Training Batch Accuracy: 100.0% 
Global Step: 900, Training Batch Accuracy: 100.0% 


Global Step: 1000, Training Batch Accuracy: 100.0% 
Time usage: 0:00:02 


print_test_accuracy(show_example_errors=True, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 71.3% (378 / 530) 
Example errors: 





True: forky True: forky True: forky 
Pred: spoony Pred: spoony Pred: spoony 





True: forky True: knifey True: forky 
Pred: spoony Pred: spoony Pred: spoony 





True: forky True: knifey True: forky 
Pred: knifey Pred: forky Pred: knifey 


N 


Confusion Matrix: 

[35 36 80] (0) forky 

[ 6 101 30] (1) knifey 
[ © 9 242] (2) spoony 
(0) (1) (2) 


X i] TensorFlow2 t 


现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 注 意 ， 我 们 需 
要 关闭 两 个 TensorFlow-session， 每 个 模型 对 象 各 有 一 个 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# model.close() 

# session.close() 


E 


im 


4 


这 篇 教程 向 我 们 展示 了 如 何在 Inception 模 型 上 用 自己 的 图 像 做 迁移 学 习 。 教 程 中 使 
用 的 几 千 张 图 像 是 我 们 用 一 个 Python 脚本 从 几 分 钟 的 录像 视频 中 生成 的 。 


然而 ，Knifey-Spoony 数 据 集 上 的 分 类 准确 率 不 是 很 高 ， 特 别 是 又 子 的 图 像 。 可 能 
是 因为 Inception 模 型 在 ImageNet 数 据 集 上 训练 ， 而 其 中 只 有 16 张 叉子 的 图 像 ， 但 
它 却 包括 了 1200 多 张 勺子 图 像 和 1300 多 张 餐 刀 图 像 。 因 此 Inception 模 型 很 可 能 无 
法 正确 识别 又 子 。 


因此 我 们 需要 另 一 种 技巧 来 微调 Inception 模 型 ， 这 样 它 就 能 更 好 地 识别 又 子 。 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 试 着 为 新 的 分 类 器 改变 神经 网 络 。 如 果 你 删 掉 全 连接 层 或 添加 更 多 的 全 连接 层 
会 发 生 什 么 ? 

e 如 果 你 执行 更 多 或 更 少 的 迭代 会 出 现 什么 情况 ? 

e 试 着 在 训练 集中 删 掉 一 些 勺 子 的 图 像 ， 这 样 每 种 类 别 的 图 象 数量 就 差不多 CL 
做 个 备份 ) 。 你 还 需要 删除 所 有 文件 名 带 有 * .pkl 的 缓存 文件 ， 然 后 重新 运 
行 Notebook。 这 样 会 提高 分 类 准确 率 吗 ? 比较 改变 前 后 的 混淆 矩阵 。 

e 用 convert.py 脚本 建立 你 自己 的 数据 集 。 比 如 ， 录 下 汽车 和 摩托 车 的 视 
频 ， 然 后 创建 一 个 分 类 系统 。 


e 21 1 建 的 训练 集中 删除 一 些 不 明确 的 图 像 吗 ?如 何 你 删 掉 这 些 图 像 之 
后 ， 分 类 准确 率 有 什么 变化 ? 

e 改变 Notebook， 这 样 你 可 以 输入 单 张 图 像 而 不 是 整个 数据 集 。 你 不 用 从 
Inception 模 型 中 保存 transfer-values。 

e 你 能 1 建 一 个 比 用 Inception 模 型 来 做 迁 千 移 学 习 更 好 的 或 更 快 的 神经 网 络 吗 ? 

e 向 朋 友 解 释 程序 EH de ds] LIE o 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #11 


对 抗 样本 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist/Github 


介绍 


之 前 的 教程 中 ， 我 们 用 几 种 不 用 的 深度 神经 网 络 来 分 类 图 像 ， 取 得 不 同 程度 的 成 
功 。 在 这 篇 教程 里 ， 我 们 将 会 看 到 一 个 寻找 对 抗 样本 的 简单 方法 ， 它 会 使 一 个 最 先 
进 的 神经 网 络 误 分 类 任何 输入 图 像 ， 不 管 选 的 是 什么 类 别 。 这 通过 简单 地 向 输入 图 
像 添加 小 部 分 "特定 "噪声 完成 。 人 类 不 会 觉察 到 这 些 变化 ， 但 它 却 能 戏弄 神经 网 
络 。 


本 文 基于 之 前 的 教程 。 你 需要 大 概 地 熟悉 神经 网 络 (教程 #01 和 #02) > TA 
Inception 模 型 (教程 #07) 也 很 有 帮助 。 


流程 图 
我 们 使 用 教程 #07 中 的 Inception 模 型 ， 然 后 修改 / 黑 掉 TensorFlow 图 ， 来 寻找 引起 
Inception 模 型 误 分 类 输入 图 像 的 对 抗 样本 。 


在 下 面 的 流程 图 中 ， 我 们 在 《查理 和 巧克力 工厂 》 图 像 上 添加 了 一 些 噪声 ， 然 后 作 
为 Inception 模 型 的 输入 。 最 终 目 标 是 找到 使 Inception 模 型 将 图 像 误 分 类 成 我 们 目标 
类 型 的 噪声 ， 这 边 选 择 书柜 类 型 (分 类 号 300) © 


我 们 也 为 图 添加 一 个 新 的 损失 函数 ， 来 计算 cross-entropy， 它 是 Inception 模 型 分 类 
噪声 图 像 的 性 能 度量 。 


由 于 Inception 模 型 是 由 很 多 相 结合 的 基本 数学 运算 构造 的 ， 使 用 微分 链 式 法 则 ， 
TensorFlow 让 我 们 很 快 就 能 找到 损失 函数 的 梯度 。 


我 们 使 用 损失 函数 关 于 输入 图 像 的 梯度 ， 来 寻找 对 抗 噪声 。 要 寻找 的 是 那些 可 以 增 
加 ' 书 柜 ' 类 别 而 不 是 输入 图 像 原始 类 别 的 评分 ( 即 概 举 ) ARF o 


这 本 质 上 是 用 梯度 下 降 法 来 执行 优化 的 ， 后 面 会 实现 它 。 


from IPython.display import Image, display 
Image('images/11 adversarial examples flowchart.png') 
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%matplotlib inline 

import matplotlib.pyplot as plt 
import tensorflow as tf 

import numpy as np 

import os 


# Functions and classes for loading and using the Inception mode 
T. 
import inception 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.11.0rco' 


Inception 模型 


从 网 上 下 载 Inception 模 型 。 


从 网 上 下 载 Inception 模 型 。 这 是 你 保存 数据 文件 的 默认 文件 夹 。 如 果 文 件 夹 不 存在 
就 自动 创建 。 


# inception.data dir = 'inception/' 


如 果 文 件 夹 中 不 存在 Inception 模 型 ， 就 自动 下 载 。 它 有 85MB » 


inception.maybe_download() 


Downloading Inception v3 Model ... 
Data has apparently already been downloaded and unpacked. 


载 入 Inception 模 型 
载 入 模型 ， 为 图 像 分 类 做 准备 。 


注意 warning 人 信息， 以 后 可 能 会 导致 程序 运行 失败 。 


model = inception.Inception() 


获取 Inception 模 型 的 输入 和 输出 

取得 Inception 模 型 输入 张 量 的 引用 。 这 个 张 量 是 用 来 保存 调整 大 小 后 的 图 像 ， 即 
299 x 299 像 素 并 带 有 3 个 颜色 通道 。 我 们 会 在 调整 大 小 后 的 图 像 上 添加 噪声 ， 然 后 
还 是 用 这 个 张 量 将 结果 传 到 图 (graph) 中 ， 因 此 需要 确保 调整 大 小 的 算法 没有 引 
AMF e 


resized_image = model.resized_image 


获取 Inception 模 型 softmax 分 类 器 输出 的 引用 。 


y_pred = model.y_pred 


获取 Inception 模 型 softmax 分 类 器 未 经 尺度 变化 的 (unscaled) 输出 的 引用 。 这 通 
常 称 为 logits"。 由 于 我 们 会 在 graph 上 添加 一 个 新 的 损失 有 函数 ， 其 中 用 到 这 些 未 经 
变化 的 输出 ， 因 此 logits 是 必要 的 。 


y logits = model.y logits 


E 4*Inception 7 


为 了 找到 对 抗 样本 ， 需 要 为 Inception 模 型 的 图 添加 一 个 新 的 损失 函数 。 我 们 还 需要 
这 个 损失 函数 关于 输入 图 像 的 梯度 。 





# Set the graph for the Inception model as the default graph, 
# so that all changes inside this with-block are done to that gr 
aph. 
with model.graph.as_default(): 
# Add a placeholder variable for the target class-number. 
# This will be set to e.g. 300 for the 'bookcase' class. 
pl cls target = tf.placeholder (dtype=tf.int32) 


# Add a new loss-function. This is the cross-entropy. 

# See Tutorial #01 for an explanation of cross-entropy. 

loss = tf.nn.sparse_softmax_cross_entropy_with_logits(logits 
=y_logits, labels-[pl cls target]) 


# Get the gradient for the loss-function with regard to 
# the resized input image. 
gradient - tf.gradients(loss, resized image) 


TensorFlow 27% 
我 们 需要 一 个 TensorFlow 会 话 来 运行 


session = tf.Session(graph=model.graph) 


帮助 函数 用 来 寻找 对 抗 噪声 


下 面 的 函数 找 出 了 要 添加 到 输入 图 像 上 的 噪声 ， 这 样 (输入 图 像 ) 就 会 被 分 类 到 想 
要 的 目标 类 型 。 


这 个 函数 本 质 上 是 用 梯度 下 降 来 执行 优化 。 RS Unde IA e > AUS IE ARA BRE 
eed e orc ， 这 样 ， 每 次 迭代 噪声 都 使 分 类 更 接近 于 想 要 的 
目标 类 型 。 当 分 类 评分 BR (比如 99%) 或 者 执行 了 最 大 迭代 次 数 时 ， 就 停止 
优化 。 


def find_adversary_noise(image_path, cls_target, noise_limit=3.0 


了 


required_score=0.99, max_iterations=100) 


Find the noise that must be added to the given image so 
that it is classified as the target-class. 


image_path: File-path to the input-image (must be *.jpg). 
cls_target: Target class-number (integer between 1-1000). 
noise_limit: Limit for pixel-values in the noise. 
required_score: Stop when target-class score reaches this. 
max_iterations: Max number of optimization iterations to per 


对 抗 样 


本 


form. 


nce) 


# Create a feed-dict with the image. 
feed dict = model. create feed dict(image path-image path) 


# Use TensorFlow to calculate the predicted class-scores 
# (aka. probabilities) as well as the resized image. 
pred, image = session.run([y_pred, resized_image], 

feed dict-feed dict) 


# Convert to one-dimensional array. 
pred - np.squeeze(pred) 


# Predicted class-number. 
cls_source = np.argmax(pred) 


# Score for the predicted class (aka. probability or confide 


Score source org = pred.max() 


# Names for the source and target classes. 
name source = model.name lookup.cls to name(cls source, 
only first name- 


True) 


name target - model.name lookup.cls to name(cls target, 
only first name- 


True) 


# Initialize the noise to zero. 
noise - 0 


# Perform a number of optimization iterations to find 
# the noise that causes mis-classification of the input imag 


e. 
for i in range(max iterations): 
print("Iteration:", i) 
4 The noisy image is just the sum of the input image and 
noise. 
noisy image = image + noise 
# Ensure the pixel-values of the noisy image are between 
4 © and 255 like a real image. If we allowed pixel-values 
4 outside this range then maybe the mis-classification w 
ould 
# be due to this 'illegal' input breaking the Inception 
model. 
noisy image = np.clip(a-noisy image, a_min=0.0, a max-25 
5-0) 


# Create a feed-dict. This feeds the noisy image to the 
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对 抗 样本 


# tensor in the graph that holds the resized image, beca 
use 

# this is the final stage for inputting raw image data. 

# This also feeds the target class-number that we desire. 


feed_dict = {model.tensor_name_resized_image: noisy_imag 
pl_cls_target: cls_target} 


# Calculate the predicted class-scores as well as the gr 
adient. 
pred, grad = session.run([y_pred, gradient], 
feed dict-feed dict) 


4 Convert the predicted class-scores to a one-dim array. 
pred - np.squeeze(pred) 


# The scores (probabilities) for the source and target c 
lasses. 

score source 

score target 


= pred[cls source] 
= pred[cls target] 
4 Squeeze the dimensionality for the gradient-array. 
grad - np.array(grad).squeeze() 


# The gradient now tells us how much we need to change t 
he 

# noisy input image in order to move the predicted class 

4 closer to the desired target-class. 


4 Calculate the max of the absolute gradient values. 
# This is used to calculate the step-size. 
grad absmax - np.abs(grad).max() 


4 If the gradient is very small then use a lower limit, 
4 because we will use it as a divisor. 
if grad absmax « 1e-10: 

grad absmax - 1e-10 


# Calculate the step-size for updating the image-noise. 

# This ensures that at least one pixel colour is changed 
by 

# Recall that pixel colours can have 255 different value 


# This step-size was found to give fast convergence. 
step size = 7 / grad absmax 


4 Print the score etc. for the source-class. 

msg = "Source score: {0:>7.2%}, class-number: {1:>4}, cl 
ass-name: {2}" 

print(msg.format(score source, cls source, name source)) 


# Print the score etc. for the target-class. 
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msg = "Target score: {0:>7.2%}, class-number: {1:>4}, cl 
ass-name: {2}" 
print(msg.format(score_target, cls_target, name_target) ) 


# Print statistics for the gradient. 

msg = "Gradient min: {0:>9.6f}, max: {1:>9.6f}, stepsize 
22:29 2T) 

print(msg.format(grad.min(), grad.max(), step size)) 


# Newline. 
print() 


# If the score for the target-class is not high enough. 
if score_target < required_score: 
# Update the image-noise by subtracting the gradient 
# scaled by the step-size. 
noise -= step_size * grad 


# Ensure the noise is within the desired range. 
# This avoids distorting the image too much. 
noise = np.clip(a=noise, 
a_min=-noise_limit, 
a max-noise limit) 
else: 
4 Abort the optimization because the score is high e 
nough. 
break 


return image.squeeze(), noisy image.squeeze(), noise, \ 
name source, name target, \ 
Score source, score source org, score target 


a 
绘制 图 像 和 噪声 的 帮助 函数 


六 数 对 输入 做 归 一 化 ， 则 输入 值 在 0.0 到 1.0 之 间 ， 这 样 才能 正确 的 显示 出 噪声 。 


def normalize_image(x): 
# Get the min and max values for all pixels in the input. 
x_min = x.min() 
x_max x.max() 


# Normalize so all values are between 0.0 and 1.0 
x norm = (x - x min) / (x max - x min) 


return x norm 


这 个 函数 绘制 了 原始 图 像 、 噪 声 图 像 ， 以 及 噪声 。 它 也 显示 了 类 别名 和 评分 。 


对 抗 样本 


def plot_images(image, noise, noisy_image, 
name_source, name_target, 
score_source, score_source_org, score_target): 
nm nmi 
Plot the image, the noisy image and the noise. 
Also shows the class-names and scores. 


Note that the noise is amplified to use the full range of 
colours, otherwise if the noise is very low it would be 
hard to see. 


image: Original input image. 

noise: Noise that has been added to the image. 

noisy image: Input image + noise. 

name source: Name of the source-class. 

name target: Name of the target-class. 

score source: Score for the source-class. 

Score source org: Original score for the source-class. 
score target: Score for the target-class. 


# Create figure with sub-plots. 
fig, axes = plt.subplots(1, 3, figsize=(10,10)) 


# Adjust vertical spacing. 
fig.subplots_adjust(hspace=0.1, wspace=0.1) 


# Use interpolation to smooth pixels? 
smooth = True 


# Interpolation type. 


if smooth: 

interpolation = 'splinei6' 
else: 

interpolation = 'nearest' 


# Plot the original image. 
# Note that the pixel-values are normalized to the [0.0, 1.0] 


# range by dividing with 255. 

ax = axes.flat[0] 

ax.imshow(image / 255.0, interpolation=interpolation) 
msg = "Original Image:\n{O} ({1:.2%})" 

xlabel = msg.format(name_source, score_source_org) 
ax.set_xlabel(xlabel) 


# Plot the noisy image. 

ax = axes.flat[1] 

ax.imshow(noisy_image / 255.0, interpolation=interpolation) 

msg = "Image + Noise:\nf0} ({1:.2%})\n{2} ({3: .2%})" 

xlabel = msg.format(name_source, score_source, name_target, 
score target) 
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ax.set_xlabel(xlabel) 


# Plot the noise. 

# The colours are amplified otherwise they would be hard to 
see. 

ax = axes.flat[2] 

ax.imshow(normalize_image(noise), interpolation=interpolatio 
n) 

xlabel = "Amplified Noise" 

ax.set_xlabel(xlabel) 


# Remove ticks from all the plots. 

for ax in axes.flat: 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show() 


ee’ - - =] = - = or 
寻找 并 绘制 对 抗 样本 的 帮助 函数 


这 个 函数 结合 了 上 面 的 两 个 方法 。 它 先 找到 对 抗 噪声 ， 然 后 画 出 图 像 和 噪声 。 


NO 


def adversary example(image path, cls_target, 
noise limit, required score): 


Find and plot adversarial noise for the given image. 


image path: File-path to the input-image (must be *.jpg). 
cls target: Target class-number (integer between 1-1000). 
noise limit: Limit for pixel-values in the noise. 

required score: Stop when target-class score reaches this. 


4 Find the adversarial noise. 

image, noisy image, noise, \ 

name source, name target, \ 

Score source, score source org, score target = \ 

find adversary noise(image path-image path, 

cls target-cls target, 
noise limit-noise limit, 
required score-required score) 


4 Plot the image and the noise. 
plot images(image-image, noise-noise, noisy image-noisy imag 


name source-name source, name target-name target 


Score source-score source, 
Score source org-score source org, 
score target-score target) 


# Print some statistics for the noise. 
msg = "Noise min: {0:.3f}, max: {1:.3f}, mean: {2:.3f}, std: 
Tosca 
print(msg.format(noise.min(), noise.max(), 
noise.mean(), noise.std())) 


结果 


这 个 例子 将 一 张 鹦 赵 图 作为 输入 ， 然 后 找到 对 抗 噪声 ， 使 得 Inception 模 型 将 图 像 误 
分 类 成 一 个 书架 (类 别 号 300) 。 


唆 声 界限 设 为 3.0， 这 表示 只 允许 每 个 像素 颜色 在 3.0 范 围 内 波动 。 像 素颜 色 在 0 到 
255 之 间 ， 因 此 3.0 的 浮动 对 应 大 约 1.2% 的 可 能 范围 。 这 样 的 少量 噪声 对 人 了 眼 是 不 可 
见 的 ， 因 此 噪声 图 像 和 原始 图 像 看 起 来 基本 一 致 ， 如 下 所 示 。 


要 求 评分 设 为 0.99， 这 表示 当 目 标 分 类 的 评分 大 于 等 于 0.99 时 ， 用 来 寻找 对 抗 噪声 
的 优化 器 就 会 停止 ， 这 样 Inception 模 型 几乎 确定 了 噪声 图 像 展 示 的 是 期 望 的 目标 类 
别 o 


image path = "images/parrot croppedi.jpg" 


adversary example(image path-image path, 


Iteration: O 


Source score: 
Target score: 
Gradient min: 


Iteration: 1 


Source score: 
Target score: 
Gradient min: 


Iteration: 2 


Source score: 
Target score: 
Gradient min: 


Iteration: 3 


Source score: 
Target score: 
Gradient min: 


Iteration: 4 


Source score: 
Target score: 
Gradient min: 


Iteration: 5 


Source score: 
Target score: 
Gradient min: 


Iteration: 6 


Source score: 
Target score: 
Gradient min: 


Iteration: 7 


Source score: 
Target score: 
Gradient min: 


Iteration: 8 


Source score: 
Target score: 


cls_target= 


300, 


noise_limit=3.0, 
required_score=0.99) 


97.38%, 
0.00%, 


-0.001329, max: 


88.87%, 
0.01%, 


-0.001499, max: 


68.47%, 
0.06%, 
-0.003093, max: 


16.76%, 
0.22%, 


-0.001077, max: 


31.76%, 
0.41%, 
-0.001670, max: 


11.86%, 
0.72%, 
-0.001524, max: 


2.41%, 
3.26%, 
-0.001685, max: 


3.02%, 
7.07%, 
-0.001503, max: 


2.34%, 
6.59%, 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.001370, stepsize: 5110.94 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.001401, stepsize: 4668.28 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.002587, stepsize: 2262.91 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.001047, stepsize: 6499.39 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.001715, stepsize: 4081.82 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.002019, stepsize: 3466.85 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.001247, stepsize: 4154.00 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.001707, stepsize: 4101.29 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 


Gradient min: 


Iteration: 9 
Source score: 
Target score: 
Gradient min: 


Iteration: 10 
Source score: 
Target score: 
Gradient min: 


Iteration: 11 
Source score: 
Target score: 
Gradient min: 


Iteration: 12 
Source score: 
Target score: 
Gradient min: 


Iteration: 13 
Source score: 
Target score: 
Gradient min: 


Iteration: 14 
Source score: 
Target score: 
Gradient min: 


Iteration: 15 
Source score: 
Target score: 
Gradient min: 


Iteration: 16 
Source score: 
Target score: 
Gradient min: 


Iteration: 17 
Source score: 
Target score: 
Gradient min: 


Iteration: 18 
Source score: 
Target score: 
Gradient min: 


Iteration: 19 


-0.003677, max: 


1.33%, 
16.10%, 
-0.001366, max: 


0.85%, 
14.19%, 


-0.001632, max: 


0.89%, 
38.05%, 
-0.001264, max: 


0.44%, 
35.43%, 
-0.001744, max: 


0.29%, 
60.42%, 
-0.000611, max: 


0.24%, 
40.47%, 
-0.001014, max: 


1.98%, 
41.95%, 
-0.001578, max: 


0.04%, 
78.76%, 
-0.000333, max: 


1.93%, 
43.73%, 
-0.001840, max: 


0.02%, 
91.74%, 
-0.000328, max: 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


class- 
class- 


0.003430, stepsize: 1903.80 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.001558, stepsize: 4492.61 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.001372, stepsize: 4288.61 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.000991, stepsize: 5539.81 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.002125, stepsize: 3293.86 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.000705, stepsize: 9927.19 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.001096, stepsize: 6385.38 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.001865, stepsize: 3753.93 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.000335, stepsize: 20888.12 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.002724, stepsize: 2569.94 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 

0.000189, stepsize: 21342.00 


Source score: 
Target score: 
Gradient min: 


Iteration: 20 
Source score: 
Target score: 
Gradient min: 


Iteration: 21 
Source score: 
Target score: 
Gradient min: 


Iteration: 22 
Source score: 
Target score: 
Gradient min: 


Iteration: 23 
Source score: 
Target score: 
Gradient min: 


Iteration: 24 
Source score: 
Target score: 
Gradient min: 


Iteration: 25 
Source score: 
Target score: 
Gradient min: 


Original Image: 
macaw (97.38%) 


Noise min: 


-3.000, 


0.00%, 
97.37%, 


0.01%, 
97.13%, 


0.01%, 
94.92%, 


0.01%, 
97.18%, 


0.01%, 
95.90%, 


0.00%, 
98.98%, 


0.00%, 
99.12%, 





Image + Noise: 
macaw (0.00%) 


class- 
class- 
-0.000064, max: 


class- 
class- 
-0.000089, max: 


class- 
class- 
-0.000128, max: 


class- 
class- 
-0.000071, max: 


class- 
class- 
-0.000111, max: 


class- 
class- 
-0.000029, max: 


class- 
class- 
-0.000019, max: 


number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.000084, stepsize: 83366.77 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.000086, stepsize: 78565.60 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.000142, stepsize: 49304.41 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.000058, stepsize: 97917.04 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.000142, stepsize: 49346.70 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.000025, stepsize: 245266.90 
number: 409, class-name: macaw 
number: 300, class-name: bookcase 
0.000022, stepsize: 311258.06 





Amplified Noise 


bookcase (99.12%) 


max: 


3.000, mean: 


0.001, std: 1.492 





AM AAS 


如 上 所 示 ， 岗 起 的 原始 图 像 与 噪声 图 像 看 起 来 几 笠 一致。 人 眼 无 法 区 分 开 两 张 图 
1% o JR 46 Blik Inception& 78 3E 2 key KS AY 2635. (AGRE) ， 评 分 为 97.38%。 但 
RP ARSTER S35 09 2- 3€ TE 27 0.00% > tE IR 89 7-27 99.12% © 

RAE > HATHA T Inception® > ib ETE — KB MARR 89 E — BAR o RE 
添加 了 一 些 “ 特 定 的 "噪声 就 导致 了 这 个 误 分 类 。 

注意 ， 上 面 展示 的 噪声 是 被 放大 数 倍 的 。 实 际 上 ， 骂 声 只 在 输入 图 像 每 个 像素 闫 色 


强度 的 最 多 1.2% 范 围 内 调整 图 像 (假定 噪声 界限 像 上 面 的 函数 一 样 设置 为 3.0) 。 
由 于 噪声 很 弱 ， 人 类 观察 不 到 ， 但 它 导 致 Inception 模 型 完全 误 分 类 的 输入 图 像 。 


Elon Musk 


我 们 也 找到 了 Elon Mask 图 像 的 对 抗 噪声 。 目 标 类 别 再 次 设 为 “书柜 ”( 类别 号 
300) ， 骂 声 界 限 和 要 求 分 数 也 与 上 面 的 相同 。 


image_path = "images/elon_musk.jpg" 


adversary_example(image_path=image_path, 
cls_target=300, 
noise_limit=3.0, 
required_score=0.99) 


Iteration: 0 


Source score: 


t 


Target score: 
Gradient min: 


Iteration: 1 


Source score: 


t 


Target score: 
Gradient min: 


Iteration: 2 


Source score: 


t 


Target score: 
Gradient min: 


Iteration: 3 


Source score: 


je 


Target score: 
Gradient min: 


Iteration: 4 


Source Score: 


t 


Target score: 
Gradient min: 


Iteration: 5 


Source score: 


t 


Target score: 
Gradient min: 


Iteration: 6 


Source score: 


t 


Target score: 
Gradient min: 


19.73%, class-number: 837, class-name: sweatshir 
0.01%, class-number: 300, class-name: bookcase 
-0.008348, max: 0.005946, stepsize: 838.48 
1.77%, class-number: 837, class-name: sweatshir 
0.24%, class-number: 300, class-name: bookcase 
-0.002952, max: 0.005907, stepsize: 1185.13 
0.52%, class-number: 837, class-name: sweatshir 
10.06%, class-number: 300, class-name: bookcase 
-0.006741, max: 0.006555, stepsize: 1038.46 
0.24%, class-number: 837, class-name: sweatshir 
67.35%, class-number: 300, class-name: bookcase 
-0.001548, max: 0.001130, stepsize: 4521.39 
0.01%, class-number: 837, class-name: sweatshir 
68.76%, Class-number: 300, class-name: bookcase 
-0.001654, max: 0.001889, stepsize: 3706.45 
0.12%, class-number: 837, class-name: sweatshir 
84.91%, class-number: 300, class-name: bookcase 
-0.001288, max: 0.001800, stepsize: 3889.91 
0.00%, class-number: 837, class-name: sweatshir 
99.09%, class-number: 300, class-name: bookcase 
-0.000029, max: 0.000021, stepsize: 244856.71 








Original Image: Image + Noise: Amplified Noise 
sweatshirt (19.73%) sweatshirt (0.00%) 
bookcase (99.09%) 


Noise min: -3.000, max: 3.000, mean: -0.001, std: 0.668 


Inception 模 型 弄 不 太 清 原始 输入 图 像 的 分 类 ， 认 为 它 有 可 能 是 一 件 运动 衫 (评分 
19.7396) 。 但 我 们 还 是 能 够 生成 一 个 使 Inception 模 型 完全 认为 噪声 图 像 是 书架 
(评分 99.09%) 的 对 抗 噪声 ， 即 使 在 人 眼看 来 ， 两 张 图 像 几乎 一 样 。 


查理 和 巧克力 工厂 (新 版 ) 


image path = "images/willy_wonka_new.jpg" 


adversary example(image path-image path, 
cls target-300, 
noise limit-3.0, 
required score-0.99) 


Iteration: 0 

Source score: 31.48%, class-number: 535, class-name: sunglasse 
S 

Target score: 0.03%, class-number: 300, class-name: bookcase 
Gradient min: -0.002181, max: 0.001478, stepsize: 3210.13 


Iteration: 1 


Source score: 2.08%, class-number: 535, class-name: sunglasse 
S 
Target score: 0.13%, class-number: 300, class-name: bookcase 


Gradient min: -0.001447, max: 0.001573, stepsize: 4449.85 


Iteration: 2 


Source score: 6.37%, class-number: 535, class-name: sunglasse 
S 
Target score: 0.35%, class-number: 300, class-name: bookcase 


Gradient min: -0.001421, max: 0.001633, stepsize: 4286.13 


N 
N 
O1 


Iteration: 3 


Source score: 


S 


Target score: 
Gradient min: 


Iteration: 4 


Source score: 


S 


Target score: 
Gradient min: 


Iteration: 5 


Source score: 


S 


Target score: 
Gradient min: 


Iteration: 6 


Source score: 


S 


Target score: 
Gradient min: 


Iteration: 7 


Source score: 


S 


Target score: 
Gradient min: 


Iteration: 8 


Source score: 


S 


Target score: 
Gradient min: 


Iteration: 9 


Source score: 


S 


Target score: 
Gradient min: 


Iteration: 


S 


Target score: 
Gradient min: 


Iteration: 


S 


Target score: 
Gradient min: 


10 
Source score: 


11 
Source score: 


2.25%, 
1.03%, 
-0.001736, max: 
10.54%, 
1.32%, 
-0.002901, max: 
1.86%, 
3.22%, 
-0.001784, max: 
2.19%, 
5.44%, 
-0.002405, max: 
4.16%, 
3.61%, 
-0.001463, max: 
2.25%, 
19.46%, 
-0.003193, max: 
1.25%, 
50.62%, 
-0.000910, max: 
0.86%, 
37.99%, 
-0.001351, max: 
6.40%, 


27.42%, 
-0.001785, max: 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


class- 


number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.001874, stepsize: 3734.86 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.002503, stepsize: 2413.04 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.001904, stepsize: 3675.68 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.001714, stepsize: 2911.17 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.002057, stepsize: 3402.83 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.001512, stepsize: 2192.48 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000770, stepsize: 7693.95 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.001484, stepsize: 4718.11 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.001544, stepsize: 3920.83 


Iteration: 12 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 13 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 14 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 15 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 16 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 17 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 18 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 19 
Source score: 
S 

Target score: 
Gradient min: 


Iteration: 20 
Source score: 
S 

Target score: 
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number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000842, stepsize: 8315.79 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000296, stepsize: 23618.89 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000241, stepsize: 29075.62 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000209, stepsize: 30222.49 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000592, stepsize: 8761.73 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000057, stepsize: 90126.50 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000490, stepsize: 14284.58 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 
0.000156, stepsize: 44844.46 
number: 535, class-name: sunglasse 
number: 300, class-name: bookcase 


Gradient min: -0.000166, max: 0.000141, stepsize: 42205.53 


Iteration: 21 

Source score: 0.03%, class-number: 535, class-name: sunglasse 
S 

Target score: 98.31%, class-number: 300, class-name: bookcase 
Gradient min: -0.000033, max: 0.000026, stepsize: 213124.72 


Iteration: 22 

Source score: 0.03%, class-number: 535, class-name: sunglasse 
S 

Target score: 98.80%, class-number: 300, class-name: bookcase 
Gradient min: -0.000023, max: 0.000027, stepsize: 260036.19 


Iteration: 23 

Source score: 0.03%, class-number: 535, class-name: sunglasse 
S 

Target score: 99.03%, class-number: 300, class-name: bookcase 
Gradient min: -0.000022, max: 0.000024, stepsize: 294094.62 


V 





Original Image: Image + Noise: Amplified Noise 
sunglasses (31.4896) sunglasses (0.0396) 
bookcase (99.03%) 


Noise min: -3.000, max: 3.000, mean: 0.010, std: 1.534 


在 上 面 的 《查理 和 巧克力 工厂 》 图 像 中 (新 版 电影 ) ， 原 先 Inception 模 型 将 图 像 分 
类 成 “太阳 镜 ” (评分 31.48% ) 。 但 再 一 次 ， 我 们 能 够 生成 让 模型 将 图 像 分 类 成 “ 书 
架 ” 的 对 抗 噪 声 (评分 99.03%) ° 


两 张 图 像 看 起 来 一 样 。 但 你 可 以 倾斜 电脑 屏幕 ， 看 到 白色 区 域 一 些 轻 微 变 化 的 噪声 
图 样 。 


查理 和 巧克力 工厂 (ER) 


image path = "images/willy_wonka_old.jpg" 


adversary_example(image_path=image_path, 
cls_target=300, 
noise_limit=3.0, 
required_score=0.99) 


Iteration: 0 

Source score: 97.22%, class-number: 817, class-name: bow tie 
Target score: 0.00%, class-number: 300, class-name: bookcase 
Gradient min: -0.002479, max: 0.003469, stepsize: 2017.94 


Iteration: 1 

Source score: 10.65%, class-number: 817, class-name: bow tie 
Target score: 0.08%, class-number: 300, class-name: bookcase 
Gradient min: -0.000859, max: 0.001458, stepsize: 4799.50 


Iteration: 2 

Source score: 2.21%, class-number: 817, class-name: bow tie 
Target score: 0.25%, class-number: 300, class-name: bookcase 
Gradient min: -0.000415, max: 0.000617, stepsize: 11350.70 


Iteration: 3 

Source score: 3.59%, class-number: 817, class-name: bow tie 
Target score: 0.74%, class-number: 300, class-name: bookcase 
Gradient min: -0.000643, max: 0.000752, stepsize: 9304.24 


Iteration: 4 

Source score: 3.05%, class-number: 817, class-name: bow tie 
Target score: 1.42%, class-number: 300, class-name: bookcase 
Gradient min: -0.000744, max: 0.000688, stepsize: 9407.59 


Iteration: 5 

Source score: 1.80%, class-number: 817, class-name: bow tie 
Target score: 1.35%, class-number: 300, class-name: bookcase 
Gradient min: -0.000924, max: 0.000954, stepsize: 7334.48 


Iteration: 6 

Source score: 9.09%, class-number: 817, class-name: bow tie 
Target score: 3.70%, class-number: 300, class-name: bookcase 
Gradient min: -0.002771, max: 0.003224, stepsize: 2171.03 


Iteration: 7 

Source score: 1.05%, class-number: 817, class-name: bow tie 
Target score: 15.34%, class-number: 300, class-name: bookcase 
Gradient min: -0.001409, max: 0.001925, stepsize: 3637.15 


Iteration: 8 
Source score: 1.58%, class-number: 817, class-name: bow tie 
Target score: 32.90%, class-number: 300, class-name: bookcase 


Gradient min: 


Iteration: 9 
Source score: 
Target score: 
Gradient min: 


Iteration: 10 
Source score: 
Target score: 
Gradient min: 


Iteration: 11 
Source score: 
Target score: 
Gradient min: 


Iteration: 12 
Source score: 
Target score: 
Gradient min: 


Iteration: 13 
Source score: 
Target score: 
Gradient min: 


Iteration: 14 
Source score: 
Target score: 
Gradient min: 


Iteration: 15 
Source score: 
Target score: 
Gradient min: 
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Original Image: 
bow tie (97.22%) 


-0.001282, max: 


0.98%, 
32.66%, 


0.59%, 
66.56%, 


0.10%, 
85.64%, 


0.15%, 
89.87%, 


0.00%, 
98.0996, 
-0.000037, 


0.07%, 
95.18%, 


0.00%, 
99.72%, 





Image + Noise: 
bow tie (0.00%) 


class- 
class- 
-0.001728, max: 


class- 
class- 
-0.000976, max: 


class- 
class- 
-0.000260, max: 


class- 
class- 
-0.000341, max: 


class- 
class- 
max: 


class- 
class- 
-0.000212, max: 


class- 
class- 
-0.000004, max: 


0.001393, stepsize: 5023.51 
number: 817, class-name: bow tie 
number: 300, class-name: bookcase 

0.001736, stepsize: 4032.38 
number: 817, class-name: bow tie 
number: 300, class-name: bookcase 

0.000736, stepsize: 7173.06 
number: 817, class-name: bow tie 
number: 300, class-name: bookcase 

0.000254, stepsize: 26939.47 
number: 817, class-name: bow tie 
number: 300, class-name: bookcase 

0.000252, stepsize: 20529.36 
number: 817, class-name: bow tie 
number: 300, class-name: bookcase 

0.000041, stepsize: 168840.03 
number: 817, class-name: bow tie 
number: 300, class-name: bookcase 

0.000168, stepsize: 32997.19 
number: 817, class-name: bow tie 
number: 300, class-name: bookcase 

0.000004, stepsize: 1590352.60 


Amplified Noise 


bookcase (99.72%) 


Noise min: -3.000, max: 3.000, mean: -0.000, std: 1.309 


《查理 和 巧克力 工厂 》 图 像 〈 四 版 电影 ) 原先 被 Inception 模 型 分 类 成 "蝴蝶 领结 ”。 
同样 ， 加 了 只 声 之 后 ， 它 被 分 类 成 “书架 ”( 评 分 99.72%) ° 


关闭 TensorFlow 会 话 


现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 注 意 ， 我 们 需 
要 关闭 两 个 TensorFlow-session， 每 个 模型 对 象 各 有 一 个 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# session.close() 

# model.close() 
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NS 
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我 们 演示 了 如 何 寻 找 导 致 Inception 模 型 误 分 类 图 像 的 对 抗 样本 。 通 过 一 个 简单 的 流 
程 ， 我 们 发 现 将 噪声 添加 到 输入 图 像 上 会 使 模 型 错误 地 分 类 图 像 ， 即 使 每 个 像素 只 
做 了 轻微 的 改变 ， 而 且 人 有 眼 无 法 察觉 这 些 变化 。 


更 进一步 ， 优 化 后 的 噪声 可 以 给 出 一 个 接近 100% 的 评分 (概率 或 确信 和 度 ) 。 
此 ， 输 入 图 像 不 仅 被 误 分 类 了 ， 神 经 网 络 还 很 确信 自己 正确 地 分 类 了 图 像 。 


这 是 神经 网 络 的 一 个 普遍 的 问题 ， 并 且 是 一 个 很 严肃 的 问题 ! 我 们 无 法 在 关键 应 用 
中 相信 神经 网 络 ， 直 到 能 够 理解 为 什么 会 发 生 上 述 问 题 或 如 何 解决 它 。 想 象 一 下 自 
动 驾 驶 汽车 由 于 其 神经 网 络 误 分 类 了 输入 图 像 而 忽视 停止 标志 或 穿 过 马路 的 行人 。 


对 这 个 问题 的 研究 正在 进行 中 ， 鼓 励 你 在 网 上 搜索 一 下 这 个 课题 的 最 新 论文 。 也 许 
你 可 以 找到 问题 的 解决 方案 ? 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 试 着 使 用 自己 的 图 像 。 

e 试 着 在 adversary example() 中 使 用 其 他 的 参数 。 试 试 其 它 的 目标 类 别 、 
噪声 界限 和 评分 要 求 。 结 果 是 怎样 的 ? 

e 你 认为 对 于 所 有 的 目标 类 别 都 能 生成 它 的 对 抗 噪声 吗 ? 如 何 证 明 你 的 理论 ? 

e 试 着 在 find_adversary_noise() 中 使 用 不 同 的 公式 来 计算 step-size。 你 能 


使 优化 更 快 吗 ? 


e 试 着 在 噪声 图 像 输入 到 神经 网 络 之 前 对 它 进 行 模糊 处 理 。 它 能 去 掉 对 抗 噪声 ， 


并 且 导 致 再 一 次 的 正确 分 类 吗 ? 


e 试 着 降低 噪声 图 像 的 颜色 深度 ， 而 不 是 对 它 做 模糊 。 它 会 去 除 对 抗 噪声 并 导致 


正确 分 类 吗 ? 比如 将 图 像 的 RGB 限 制 在 16 或 32 位 里 ， 通 常 是 有 255 位 的 。 


e 你 认为 你 的 噪声 消除 对 MNIST 数 据 集 的 手写 数字 或 奇特 的 几何 形状 有 效 吗 ? 了 有 


时 将 这 些 称 为 fooling images'， 上 网 搜索 看 看 。 


e 你 能 找到 对 所 有 图 像 都 有 效 的 对 抗 噪声 吗 ? 这 样 就 不 用 为 每 张 图 像 寻 找 特 定 的 


骂 声 了 。 你 会 怎么 做 ? 


e 你 能 直接 用 TensorFlow 而 不 是 Numpy 来 实现 find adversary noise() 吗 ? 


需要 在 TensorFlow 图 中 创建 一 个 噪声 变量 ， 这 样 它 就 能 被 优化 。 
e 向 朋友 解释 什么 是 对 抗 样本 以 及 程序 如 何 找到 它们 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 


modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 


and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 


EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #12 


MNIST 的 对 抗 噪声 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist/Github 


介绍 


之 前 的 教程 #11 展 示 了 如 何 找到 最 先进 神经 网 络 的 对 抗 样本 ， 它 会 引起 网 络 误 分 类 
图 像 ， 即 使 在 人 眼看 来 图 像 完全 相同 。 例 如 ， 在 添加 了 对 抗 噪声 之 后 ， 一 张 鹦 鸥 的 
图 像 会 被 误 分 类 成 书架 ， 但 在 人 类 眼中 图 像 完 全 没什么 变化 。 


教程 #11 是 通过 每 张 图 像 的 优化 过 程 来 寻找 对 抗 噪声 的 。 由 于 噪声 是 专门 为 某 张 图 
像 生成 ， 因 此 它 可 能 不 是 通用 的 ， 无 法 在 其 他 图 像 上 起 作用 。 

本 教程 将 会 找到 那些 导致 几乎 所 有 输入 图 像 都 被 误 分 类 成 目标 类 别 的 对 抗 噪声 。 我 
们 使 用 MNIST 手 写 数 字数 据 集 为 例 。 现 在 ， 对 抗 噪声 对 人 了 眼 是 清晰 可 见 的 ， 但 人 类 
还 是 能 够 很 容易 地 辨认 出 数字 ， 然 而 神经 网 络 几 乎 将 所 有 图 像 误 分 类 。 

这 篇 教程 里 ， 我 们 还 会 试 着 让 神经 网 络 对 对 抗 噪声 免疫 。 

ZEE #11 用 Numpy 来 做 对 抗 优化 。 在 这 篇 教程 里 ， 我 们 会 直接 在 TensorFlow 里 实 
现 优化 过 程 。 这 会 更 快速 ， 尤 其 是 在 使 用 GPU 的 时 候 ， 因 为 不 用 每 次 迭代 都 在 GPU 
里 拷贝 数据 。 


推荐 你 先 学 习 教 程 #11。 你 也 需要 大 概 地 熟悉 神经 网 络 ， 详 见 教 程 #01 和 802 © 


流程 图 
下 面 的 图 表 直 接 展示 了 之 后 实现 的 卷 积 神 经 网 络 中 数据 的 传递 。 


例子 展示 的 是 数字 7 的 输入 图 像 。 随 后 在 图 像 上 添加 对 抗 噪声 。 红 色 的 噪声 点 是 正 
值 ， 它 让 像素 值 更 深 ， 蓝 色 骂 声 点 是 负 值 ， 让 输入 图 像 在 此 处 的 颜色 更 浅 。 


这 些 噪声 图 像 传 到 神经 网 络 中 ， 然 后 得 到 一 个 预测 数字 。 这 种 情况 下 ， 对 抗 噪声 让 
神经 网 络 相 信 这 张 数字 7 的 图 像 显示 的 是 数字 3。 骂 声 对 人 眼 是 清晰 可 见 的 ， 但 人 类 
仍然 可 以 容易 地 辨认 出 数字 7 来 。 

这 边 值得 注意 的 是 ， 单 一 的 噪声 模式 会 导致 神经 网 络 将 几乎 所 有 的 输入 图 像 都 误 分 
类 成 期 望 的 目标 类 型 。 

训练 集 的 图 像 。 这 是 神经 网 络 的 常规 优化 过 程 。 一 旦 分 类 准确 率 足 够 高 ， 我 们 就 切 
换 到 第 二 个 优化 程序 ，《〈 它 用 来 ) 了 寻找 单一 模式 的 对 抗 噪声 ， 使 得 所 有 的 输入 图 像 


都 被 误 分 类 成 目标 类 型 。 
这 两 个 优化 程序 是 完全 独立 的 。 第 一 个 程序 只 修改 量 神经 网 络 的 变量 ， 第 二 个 程序 
只 修改 对 抗 噪声 。 


from IPython.display import Image 
Image('images/12 adversarial noise flowchart.png') 
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%matplotlib inline 

import matplotlib.pyplot as plt 

import tensorflow as tf 

import numpy as np 

from sklearn.metrics import confusion_matrix 
import time 

from datetime import timedelta 

import math 


# We also need PrettyTensor. 
import prettytensor as pt 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version . 


'0.12.0-rc0' 


PrettyTensor 版 本 : 


pt. version . 


027.1. 


载 入 数据 
MNIST 数 据 集 大 约 12MB， 如 果 没 在 给 定 路 径 中 找到 就 会 自动 下 载 。 


from tensorflow.examples.tutorials.mnist import input_data 
data = input_data.read_data_sets('data/MNIST/', one_hot=True) 


Extracting data/MNIST/train-images-idx3-ubyte.gz 
Extracting data/MNIST/train-labels-idx1-ubyte.gz 
Extracting data/MNIST/t10k-images-idx3-ubyte.gz 
Extracting data/MNIST/t10k-labels-idx1-ubyte.gz 


现在 已 经 载 入 了 MNIST 数 据 集 ， 它 由 70,000 张 图 像 和 对 应 的 标签 (比如 图 像 的 类 
别 ) 组 成 。 数 据 集 分 成 三 份 互相 独立 的 子 集 。 我 们 在 教程 中 只 用 训练 集 和 测试 集 。 


print("Size of:") 

print("- Training-set:\t\t{}".format(len(data.train.labels))) 
print("- Test-set:\t\t{}".format(len(data.test.labels))) 
print("- Validation-set:\t{}".format(len(data.validation.labels) 
) ) 


Size of: 

- Training-set: 55000 
- Test-set: 10000 

- Validation-set: 5000 


类 型 标签 使 用 One-Hot 编 码 ， 这 意外 每 个 标签 是 长 为 10 的 向 量 ， 除 了 一 个 元 素 之 
外 ， 其 他 的 都 为 零 。 这 个 元 素 的 索引 就 是 类 别 的 数字 ， 即 相应 图 片 中 画 的 数字 。 我 
们 也 需 要 测试 数据 集 类 别 数字 的 整 型 值 ， 现 在 计算 它 。 


data.test.cls = np.argmax(data.test.labels, axis=1) 


数据 维度 


在 下 面 的 源码 中 ， 有 很 多 地 方 用 到 了 数据 维度 。 它 们 只 在 一 个 地 方 定义 ， 因 此 我 们 
可 以 在 代码 中 使 用 这 些 数字 而 不 是 直接 写 数字 。 


# We know that MNIST images are 28 pixels in each dimension. 
img_size = 28 


# Images are stored in one-dimensional arrays of this length. 
img_size_flat = img_size * img_size 


# Tuple with height and width of images used to reshape arrays. 
img_shape = (img_size, img_size) 


# Number of colour channels for the images: 1 channel for gray-s 
cale. 
num channels = 1 


# Number of classes, one class for each of 10 digits. 
num_classes = 10 


用 来 绘制 图 像 的 帮助 函数 


这 个 函数 用 来 在 3X3 的 栅 格 中 画 9 张 图 像 ， 然 后 在 每 张 图 像 下 面 写 出 真实 类 别 和 预测 
类 别 。 如 果 提 供 了 骂 声 ， 就 将 其 添加 到 所 有 图 像 上 。 


NO 
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def plot images(images, cls true, cls pred-None, noise=0.0): 
assert len(images) == len(cls true) == 


# Create figure with 3x3 sub-plots. 
fig, axes = plt.subplots(3, 3) 
fig.subplots_adjust(hspace=0.3, wspace=0.3) 


for i, ax in enumerate(axes.flat): 
# Get the i'th image and reshape the array. 
image = images[i].reshape(img_shape) 


# Add the adversarial noise to the image. 
image += noise 


# Ensure the noisy pixel-values are between @ and 1. 
image = np.clip(image, 0.0, 1.0) 


# Plot image. 
ax. imshow( image, 
cmap-'binary', interpolation='nearest' ) 


# Show true and predicted classes. 
if cls_pred is None: 
xlabel = "True: {0}".format(cls_true[i]) 
else: 
xlabel = "True: (0), Pred: {1}".format(cls_true[i], 
cls_pred[i]) 


# Show the classes as the label on the x-axis. 
ax.set_xlabel(xlabel) 


# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show( ) 


绘制 几 张 图 像 来 看 看 数据 是 否 正确 
# Get the first images from the test-set. 
images = data.test.images[0:9] 


# Get the true classes for those images. 
cls_true = data.test.cls[0:9] 


# Plot the images and labels using our helper-function above. 
plot_images(images=images, cls_true=cls_true) 


ZO / 


N 
re 
— 


True: 7 True: 2 True: 1 


o 
E 
- 


True: 0 True: 4 True: 1 


ES 
> 
^ 


True: 4 True: 9 True: 5 


TensorFlow 图 (Graph) 


现在 将 使 用 TensorFlow 和 PrettyTensor 构 建 神经 网 络 的 计算 图 。 与 往常 一 样 ， 我 们 
需要 为 图 像 创建 占 位 符 变量 ， 将 其 送 到 计算 图 中 ， 然 后 将 对 抗 噪声 添加 到 图 像 中 。 
接着 把 骂 声 图 像 用 作 卷 积 神经 网 络 的 输入 。 


这 个 网 络 有 两 个 单独 的 优化 程序 。 神 经 网 络 本 身 变量 的 一 个 常规 优化 过 程 ， 以 及 对 
抗 噪声 的 另 一 个 优化 过 程 。 两 个 优化 过 程 都 直接 在 TensorFlow 中 实现 。 


542% (Placeholder) 变量 


占 位 符 变量 为 TensorFlow 中 的 计算 图 提供 了 输入 ， 我 们 可 以 在 每 次 执行 图 的 时 候 更 
改 。 我 们 称 为 feeding 占 位 符 变量 。 


首先 ， 我 们 为 输入 图 像 定 义 占 位 符 变量 。 这 允许 我 们 改变 输入 到 TensorFlow 图 中 的 
图 像 。 这 是 一 个 张 量 ， 代 表 它 是 一 个 多 维 数组 。 数据 类 型 设 为 float32 ， 形 状 设 
为 [None » img size flat] ， 其 中 None 代表 张 量 可 以 保存 任意 数量 的 图 像 ， 每 
个 图 像 是 长 度 为 img size flat 的 向 量 。 


X = tf.placeholder(tf.float32, shape=[None, img size flat], name= 


BARRA x 被 编码 为 4 维 张 量 ， 因 此 我 们 需要 将 它 的 形状 转换 

至 [num_images, img_height, img_width, num_channels] 。 注 

意 img_height == img_width == img_size ， 如 果 第 一 维 的 大 小 设 为 -1， 
num_images 的 大 小 也 会 被 自动 推导 出 来 。 转 换 运算 如 下 : 


x image = tf.reshape(x, [-1, img size, img size, num channels]) 


接 下 来 我 们 为 输入 变量 Xx 中 的 图 像 所 对 应 的 真实 标签 定义 占 位 符 变 量 。 变 量 的 形状 
是 [None, num classes] ， 这 代表 着 它 保存 了 任意 数量 的 标签 ， 每 个 标签 是 长 度 
A num_classes 的 向 量 ， 本 例 中 长 度 为 10。 


y_true = tf.placeholder(tf.float32, shape=[None, num_classes], n 
ame-'y true') 


我 们 也 可 以 为 类 别 号 提供 一 个 占 位 符 ， 但 这 里 用 argmax 来 计算 它 。 这 里 只 是 
TensorFlow 中 的 一 些 操作 符 ， 没 有 执行 什么 运算 


y_true_cls = tf.argmax(y_true, dimension=1) 


Hu 
输入 图 像 的 像素 值 在 0.0 到 1.0 之 间 。 对 抗 噪声 是 在 输入 图 像 上 添加 或 删除 的 数值 。 
对 抗 噪声 的 界限 设 为 0.35， 则 嗓 声 在 正 负 0.35 之 间 。 


noise limit = 0.35 


对 抗 噪声 的 优化 器 会 试图 最 小 化 两 个 损失 度量 : (1) 神 经 网 络 常规 的 损失 度量 ， 因 此 
我 们 会 找到 使 得 en 
AG KAY EP o 


下 面 的 权重 决定 了 与 常规 的 损失 度量 相 比 ，L2-loss 的 重要 性 。 通 常 接近 零 的 L2 权 重 
表现 的 更 好 。 


noise_12 weight = 0.02 


当 我 们 为 骂 声 创建 变量 时 ， 必 须 告知 TensorFlow 它 属于 哪 一 个 变量 集合 ， 这 样 ， 后 
面 就 能 通知 两 个 优化 器 要 更 新 哪些 变量 。 


首先 为 变量 集合 定义 一 个 名 称 。 这 只 是 一 个 字符 串 。 


ADVERSARY VARIABLES = 'adversary variables' 


接着 ， 创 建 噪声 变量 所 属 集合 的 列表 。 如 果 我 们 将 噪声 变量 添加 到 和 集 
合 tf.GraphKeys.VARIABLES 中 ， 它 就 会 和 TensorFlow 图 中 的 其 他 变量 一 起 被 初 
始 化 ， 但 不 会 被 优化 。 这 里 有 点 混乱 。 


collections = [tf.GraphKeys.VARIABLES, ADVERSARY VARIABLES] 


ME KANT TVA He P 添加 新 的 变量 。 它 会 被 初始 化 为 零 。 它 是 不 可 训练 的 ， 
此 并 不 会 与 神经 网 络 中 的 其 他 变量 一 起 被 优化 。 这 让 我 们 可 以 创建 两 个 独立 的 优化 
程序 。 


X noise = tf.Variable(tf.zeros([img_size, img size, num_channels 


1) 


name-'x noise', trainable-False, 
collections=collections) 


对 抗 噪声 会 被 限制 在 我 们 上 面 设 定 的 噪声 界限 内 。 注 意 此 时 并 未 在 计算 图 表 内 进 
计算 ， 在 优化 步骤 之 后 执行 ， 详 见 下 文 。 


X noise clip = tf.assign(x_noise, tf.clip_by_value(x_noise, 
-noise_limit, 
noise limit) ) 
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x noisy image = x image + x noise 


把 噪声 图 像 添 加 到 输入 图 像 上 时 ， 它 可 能 会 溢出 有 效 图 像 (像素 ) 的 边界 ， 因 此 我 
们 裁剪/ 限制 噪声 图 像 ， 确 保 它 的 像素 值 在 0 到 1 之 间 。 


x_noisy_image = tf.clip_by_value(x_noisy_image, 0.0, 1.0) 


卷 积 神经 网 络 


我 们 会 用 PrettyTensor 来 构造 卷 积 神经 网 络 。 首 先 需 噪声 图 像 的 张 量 封装 
PrettyTensori £P > Zo E 4E DET gs d 28 9 46 05 B 


x pretty - pt.wrap(x noisy image) 


将 输入 图 像 封装 到 PrettyTensor 对 象 之 后 ， 用 几 行 代码 就 能 添加 卷 积 层 和 全 连接 
层 o 


with pt.defaults_scope(activation_fn=tf.nn.relu): 
y_pred, loss = x_pretty.\ 

conv2d(kernel=5, depth=16, name='layer_convi').\ 
max_pool(kernel=2, stride=2).\ 
conv2d(kernel=5, depth=36, name='layer_conv2').\ 
max_pool(kernel=2, stride=2).\ 
flatten().\ 
fully_connected(size=128, name='layer_fci').\ 
softmax_classifier(num_classes=num_classes, labels=y_tru 

e) 


注意 ， 在 with 代码 块 中 ， pt.defaults_scope(activation_fn=tf.nn.relu) 
把 activation fn-tf.nn.relu 当 作 每 个 的 层 参数 ， 因 此 这 些 层 都 用 到 了 
Rectified Linear Units (ReLU) 。defaults_scope 使 我 们 能 更 方便 地 修改 所 有 层 的 参 
数 。 


正常 训练 的 优化 器 


会 在 常规 优化 程序 里 被 训练 的 神经 网 络 的 变量 列表 。 注 意 ， 'xnoise:0' 不 
EARS) BRA 个 程序 并 不 会 优化 对 抗 噪声 。 


[var.name for var in tf.trainable variables()] 


['layer_convi/weights:0', 
'layer_convi/bias:0', 
'layer conv2/weights:0', 
'layer conv2/bias:0', 
'layer fci/weights:0', 
'layer fci/bias:0', 
'fully connected/weights:0', 
'fully connected/bias:0'] 


神经 网 络 中 这 些 变量 的 优化 由 Adam-optimizer 完 成 ， 它 用 到 上 面 PretyTensor 构 造 的 
神经 网 络 所 返回 的 损失 度量 。 


此 时 不 执行 优化 ， 实 际 上 这 里 根本 没有 计算 ， 我 们 只 是 把 优化 对 象 添 加 到 
TensorFlow 图 表 中 ， 以 便 稍 后 运行 。 


optimizer = tf.train.AdamOptimizer(learning rate-ie-4).minimize( 
loss) 


获取 变量 列表 ， 这 些 是 需要 在 第 二 个 程序 里 为 对 抗 噪声 做 优化 的 变量 。 


adversary variables = tf.get collection(ADVERSARY VARIABLES) 


展示 变 量 名 称 列 表 o 这 这 里 只 有 一 个 元 素 , 是 我 们 在 上 面 创 | 建 的 对 搞 LUE P 变量 5 


[var.name for var in adversary variables] 


['x noise:0'] 


我 们 会 将 常规 优化 的 损失 函数 与 所 谓 的 L2-loss 相 结合 。 这 将 会 得 到 在 最 佳 分 类 准确 
率 下 的 最 小 对 抗 噪声 。 


L2-loss 由 一 个 通常 设置 为 接近 零 的 权重 缩放 。 


12 loss noise = noise 12 weight * tf.nn.12 loss(x noise) 


将 正常 的 损失 有 函数 和 对 抗 噪声 的 L2-loss 相 结 


loss_adversary = loss + 12_loss_noise 


现在 可 以 为 对 抗 噪声 创建 优化 器 。 由 于 优化 器 并 不 能 更 新 神经 网 络 的 所 有 变量 ， 我 
们 必须 给 一 个 需要 更 新 的 变量 的 列表 ， 即 对 抗 噪声 变量 。 注 意 ， 这 里 的 学 习 举 比 
上 面 的 常规 优化 器 要 大 很 多 。 


optimizer adversary = tf.train.AdamOptimizer(learning_rate=ie-2) 
.minimize(loss adversary, var list-adversary variables) 


现在 我 们 为 神经 网 络 创建 了 两 个 优化 器 ， 一 个 用 于 神经 网 络 的 变量 ， 另 一 个 用 于 对 


在 TensorFlow 图 表 中 ， 我 们 需要 另外 一 些 操作 ， 以 便 在 优化 过 程 中 向 用 户 展示 进 
度 o 


计算 出 神经 网 络 输出 y pred 的 预测 类 别 号 ， 它 是 一 个 包含 10 个 元 素 的 向 
。 类 型 号 是 最 大 元 素 的 索引 。 


y pred cls = tf.argmax(y pred, dimension=1 ) 
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correct_prediction = tf.equal(y_pred_cls, y_true_cls) 


上 面 的 计算 先 将 u 值 向 量 类 型 转换 成 浮 点 型 向 量 ， 这 样子 False 就 变 成 0，True 交 
成 1， 然 后 计算 这 此 值 的 平均 数 ， 以 此 来 计算 分 类 的 准确 度 。 


accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32 


)) 


运行 TensorFlow 
创建 TensorFlow 会 话 (session ) 
一 旦 创建 了 TensorFlow 图 ， 我 们 需要 创建 一 个 TensorFlow 会 话 ， 用 来 运行 


session = tf.Session() 


初始 化 变量 
我 们 需要 在 开始 优化 weights 和 biases 变量 之 前 对 它们 进行 初始 化 。 


session.run(tf.global variables initializer()) 


帮助 函数 将 对 抗 噪声 初始 化 / 重 置 为 零 。 


def init_noise(): 
session.run(tf.variables initializer([x noise])) 
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init noise() 


用 来 优化 迭代 的 帮助 函 


在 训 A 集中 有 55,000 张 图 。 用 全 部 图 像 计 算 模型 的 梯度 会 花 很 多 时 间 。 因 此 我 们 在 
优化 器 的 每 次 HARKER AST —I \ 部 分 的 图 人像。 


如 果 内 存 耗 尽 导 致电 脑 死 机 或 变 得 很 慢 ， 你 应 该 试 着 减少 这 些 数量 ， 但 同时 可 能 还 
需要 更 优化 的 迭代 。 


train batch size = 64 


下 面 的 函数 用 来 执行 一 定数 量 的 优化 迭代 ， 以 此 来 逐渐 改善 神经 网 络 的 变量 。 在 每 
行 优化 。 每 100 次 和 迭代 会 打印 出 进度 。 


这 个 函数 与 之 前 教程 中 的 相似 ， 除 了 现在 它 多 了 一 个 对 抗 目标 类 别 (adversary 
target-class) 的 参数 。 当 目标 类 别 设 为 整数 时 ， 将 会 用 它 取 代 训 练 集中 的 丫 实 类 别 
号 。 也 会 用 对 抗 优化 器 代替 常规 优化 器 ， 然 后 在 每 次 优化 之 后 ， 骂 声 将 被 限制 /截断 


到 允许 的 范 


围 。 这 里 优化 了 对 抗 噪声 ， 并 忽略 神经 网 络 中 的 其 他 变量 。 


def optimize(num_iterations, adversary_target_cls=None): 
# Start-time used for printing time-usage below. 
start_time = time.time() 


for i in range(num_iterations): 


h_size) 


imizer. 


# Get a batch of training examples. 

# x_batch now holds a batch of images and 

# y_true_batch are the true labels for those images. 
x_batch, y_true_batch = data.train.next_batch(train_batc 


# If we are searching for the adversarial noise, then 
# use the adversarial target-class instead. 
if adversary_target_cls is not None: 

# The class-labels are One-Hot encoded. 


# Set all the class-labels to zero. 
y_true_batch = np.zeros_like(y_true_batch) 


# Set the element for the adversarial target-class t 
y_true_batch[:, adversary_target_cls] = 1.0 
# Put the batch into a dict with the proper names 
# for placeholder variables in the TensorFlow graph. 
feed dict train = {x: x_batch, 
y_true: y_true_batch} 
# If doing normal optimization of the neural network. 
if adversary_target_cls is None: 
# Run the optimizer using this batch of training dat 
# TensorFlow assigns the variables in feed_dict_train 


# to the placeholder variables and then runs the opt 


session.run(optimizer, feed_dict=feed_dict_train) 
else: 


# Run the adversarial optimizer instead. 
# Note that we have 'faked' the class above to be 
# the adversarial target-class instead of the true c 


lass. 
session.run(optimizer_adversary, feed_dict=feed_dict 
_train) 
# Clip / limit the adversarial noise. This executes 
# another TensorFlow operation. It cannot be executed 
# in the same session.run() as the optimizer, because 
# it may run in parallel so the execution order is n 
ot 
# guaranteed. We need the clip to run after the opti 
mizer . 
session.run(x_noise_clip) 
# Print status every 100 iterations. 
if (i % 100 == 0) or (i == num_iterations - 1): 
# Calculate the accuracy on the training-set. 
acc = session.run(accuracy, feed_dict=feed_dict_trai 
n) 


# Message for printing. 
msg = "Optimization Iteration: {0:>6}, Training Accu 
racy: ({1:>6.14)" 


# Print it. 
print(msg.format(i, acc) ) 


# Ending time. 
end time = time.time() 


# Difference between start and end-times. 
time_dif = end_time - start_time 


# Print the time-usage. 


print("Time usage: " + str(timedelta(seconds=int(round(time_ 


dif))))) 
ER 


获取 及 绘制 噪声 的 帮助 函数 


这 个 函数 从 TensorFlow 图 表 中 获取 对 抗 噪声 。 
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def get noise(): 
# Run the TensorFlow session to retrieve the contents of 
# the x noise variable inside the graph. 
noise - session.run(x noise) 


return np.squeeze(noise) 


这 个 函数 绘制 了 对 抗 噪声 ， 并 打印 一 些 统计 信息 。 


def plot_noise(): 
# Get the adversarial noise from inside the TensorFlow graph. 


noise = get_noise() 


# Print statistics. 
print("Noise:") 

print("- Min:", noise.min()) 
print("- Max:", noise.max()) 
print("- Std:", noise.std()) 


# Plot the noise. 


plt.imshow(noise, interpolation='nearest', cmap='seismic', 
vmin=-1.0, vmax=1.0) 


ss 
用 来 绘制 错误 样本 的 帮助 函数 
部 数 用 来 绘制 测试 集中 被 误 分 类 的 样本 。 


MNIST 的 对 抗 噪声 


def plot example errors(cls pred, correct): 
# This function is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# correct is a boolean array whether the predicted class 
# is equal to the true class for each image in the test-set. 


# Negate the boolean array. 
incorrect = (correct == False) 


# Get the images from the test-set that have been 
# incorrectly classified. 
images = data.test.images[incorrect ] 


# Get the predicted classes for those images. 
cls_pred = cls_pred[incorrect ] 


# Get the true classes for those images. 
cls true = data.test.cls[incorrect ] 


# Get the adversarial noise from inside the TensorFlow graph. 
noise = get_noise() 
# Plot the first 9 images. 
plot_images(images=images[0:9], 
cls_true=cls_true[0:9], 
cls_pred=cls_pred[0:9], 


noise=noise) 


| |) 


绘制 混淆 (confusion) 4E TE 49 # Bh RA 


297 


MNIST 的 对 抗 噪声 


def plot confusion matrix(cls pred): 
# This is called from print test accuracy() below. 


# cls pred is an array of the predicted class-number for 
# all images in the test-set. 


# Get the true classifications for the test-set. 
cls_true = data.test.cls 


# Get the confusion matrix using sklearn. 
cm = confusion_matrix(y_true=cls_true, 
y_pred=cls_pred) 


# Print the confusion matrix as text. 
print(cm) 


展示 性 能 的 帮助 函数 

函数 用 来 打印 测试 集 上 的 分 类 准确 度 。 

为 测试 集 上 的 所 有 图 片 计 算 分 类 会 花费 一 段 时 间 ， 因 此 我 们 直接 用 这 个 函数 来 调用 
上 面 的 结果 ， 这 样 就 不 用 每 次 都 重新 计算 了 。 


这 个 函数 可 能 会 占用 很 多 电脑 内 存 ， 这 也 是 为 什么 将 测试 集 分 成 更 小 的 几 个 部 分 。 
如 果 你 的 电脑 内 存 比 较 小 或 死机 了 ， 就 要 试 着 降低 batch-size ° 


# Split the test-set into smaller batches of this size. 
test_batch_size = 256 


def print_test_accuracy(show_example_errors=False, 
show_confusion_matrix=False): 


# Number of images in the test-set. 
num_test = len(data.test.images) 


# Allocate an array for the predicted classes which 
# will be calculated in batches and filled into this array. 
cls_pred = np.zeros(shape=num_test, dtype=np.int) 


# Now calculate the predicted classes for the batches. 
# We will just iterate through all the batches. 
# There might be a more clever and Pythonic way of doing thi 


# The starting index for the next batch is denoted i. 
i=0 
while i < num_test: 
# The ending index for the next batch is denoted j. 
j = min(i + test_batch_size, num test) 
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MNIST 的 对 抗 噪声 


ict) 


# Get the images from the test-set between index i and j. 
images = data.test.images[i:j, :] 


# Get the associated labels. 
labels = data.test.labels[i:j, :] 


# Create a feed-dict with these images and labels. 
feed dict = {x: images, 
y true: labels? 


# Calculate the predicted class using TensorFlow. 


cls_pred[i:j] = session.run(y_pred_cls, feed dict-feed d 


# Set the start-index for the next batch to the 
# end-index of the current batch. 
i=j 


# Convenience variable for the true class-numbers of the tes 


[ESSE x 


cls_true = data.test.cls 


# Create a boolean array whether each image is correctly cla 


ssified. 


ied 


(SE. 


correct = (cls true == cls. pred) 


# Calculate the number of correctly classified images. 
# When summing a boolean array, False means 0 and True means 


correct sum = correct.sum() 

# Classification accuracy is the number of correctly classif 
# images divided by the total number of images in the test-s 
acc - float(correct sum) / num test 


# Print the accuracy. 
msg = "Accuracy on Test-Set: {0:.1%} ({1} / {2})" 
print(msg.format(acc, correct sum, num test)) 


# Plot some examples of mis-classifications, if desired. 
if show example errors: 
print("Example errors:") 
plot example errors(cls pred-cls pred, correct=correct) 


# Plot the confusion matrix, if desired. 
if show confusion matrix: 
print("Confusion Matrix:") 
plot confusion matrix(cls pred-cls pred) 


«| m > 








神经 网 络 的 第 规 优化 
此 时 对 抗 噪声 还 没有 效果 ， 因 为 上 面 只 将 它 初始 化 为 零 ， 在 优化 过 程 中 并 未 更 新 。 


optimize(num_iterations=1000) 


Optimization Iteration: ©, Training Accuracy: 12.5% 
Optimization Iteration: 100, Training Accuracy: 90.6% 
Optimization Iteration: 200, Training Accuracy: 84.4% 
Optimization Iteration: 300, Training Accuracy: 84.4% 
Optimization Iteration: 400, Training Accuracy: 89.1% 
Optimization Iteration: 500, Training Accuracy: 87.5% 
Optimization Iteration: 600, Training Accuracy: 93.8% 
Optimization Iteration: 700, Training Accuracy: 93.8% 
Optimization Iteration: 800, Training Accuracy: 93.8% 
Optimization Iteration: 900, Training Accuracy: 96.9% 
Optimization Iteration: 999, Training Accuracy: 92.2% 


Time usage: 0:00:03 


测 ne 分 类 准确 率 大 约 96-97%。 (每 次 运行 Python Notobook 时 ， 结 果 会 有 所 
变化 。) 


print_test_accuracy(show_example_errors=True) 


Accuracy on Test-Set: 96.3% (9633 / 10000) 
Example errors: 


E 


True: 9, Pred: 7 True: 2, Pred: 7 


寻找 对 抗 噪声 


在 我 们 开始 优化 对 抗 噪声 之 前 ， 先 将 它 初 始 化 为 零 。 上 面 已 经 完成 了 
里 再 执行 一 次 ， 以 防 你 用 其 他 目标 类 型 重新 运行 代码 。 


init_noise() 


现在 执行 对 抗 噪声 
化 对 抗 噪声 变量 ， 


的 优化 。 这 里 使 用 对 抗 优化 器 而 不 是 常规 优化 
同时 忽略 神经 网 络 中 的 其 他 变量 。 
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optimize(num_iterations=1000, adversary_target_cls=3) 


Optimization Iteration: 0, Training Accuracy: 6 
Optimization Iteration: 100, Training Accuracy: 93 
Optimization Iteration: 200, Training Accuracy: 96 
Optimization Iteration: 300, Training Accuracy: 98 
Optimization Iteration: 400, Training Accuracy: 95 
Optimization Iteration: 500, Training Accuracy: 96 
Optimization Iteration: 600, Training Accuracy: 100 
Optimization Iteration: 700, Training Accuracy: 98 
Optimization Iteration: 800, Training Accuracy: 95 
Optimization Iteration: 900, Training Accuracy: 93 
Optimization Iteration: 999, Training Accuracy: 100 


Time usage: 0:00:03 


这 一 步 ， 但 


& 


这 说 明 它 只 优 


. 2% 
. 8% 
. 9% 
. 4% 
. 3% 
. 9% 
. 0% 
. 4% 
. 3% 
. 8% 
. 0% 
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现在 对 抗 噪声 已 经 被 优化 了 ， 可 以 在 一 张 图 像 中 展示 出 来 。 红 色 像 素 显 示 了 正品 声 
值 ， 蓝 色 像素 显示 了 负 品 声 值 。 这 个 噪声 模式 将 会 被 添加 到 每 张 输 入 图 像 中 。 正 品 
声 值 ( 红 ) 使 像素 变 暗 ， 负 噪声 值 ( 蓝 ) 使 像素 变 亮 。 如 下 所 示 。 


plot_noise() 


Noise 
- Min: -0.35 
- Max: 0.35 


- Std: 0.195455 





当 测 试 集 的 所 有 图 像 上 都 添加 了 该 噪声 之 后 ， 根 据 选 定 的 目标 类 别 ， 分 类 准确 率 通 
常 在 是 10-15% 之 间 。 我 们 也 能 从 混淆 矩阵 中 看 出 ， 测 试 集中 的 大 多 数 图 像 都 被 分 
类 成 期 望 的 目标 类 别 一 一 尽管 有 些 目 标 类 型 比 其 他 的 需要 更 多 的 对 抗 噪声 。 


所 以 我 们 找到 了 使 对 抗 噪声 ， 使 神经 网 络 将 测试 集中 绝 大 部 分 图 像 误 分 类 成 期 望 的 
类 别 。 


我 们 也 可 以 画 出 一 些 带 有 对 抗 噪声 的 误 分 类 图 像样 本 。 骂 声 清晰 可 见 ， 但 人 眼 还 是 
可 以 轻易 地 分 辨 出 数字 。 


print_test_accuracy(show_example_errors=True, 
show_confusion_matrix=True) 


Accuracy on Test-Set: 13.2% (1323 / 10000) 
Example errors: 


N ) 


True: 7, Pred: 3 True: 2, Pred: 3 True: 1, Pred: 3 





True: 0, Pred: 3 True: 4, Pred: 3 True: 1, Pred: 3 


q4 A 


True: 4, Pred: 3 True: 9, Pred: 3 True: 9, Pred: 3 





Confusion Matrix: 


[[ 85 0 © 895 0 0 0 0 0 0] 
[ 0 0 9 1135 0 0 0 0 0 o] 
[ 9 9 46 986 0 0 0 0 0 9] 
[ 0 0 9 1010 0 0 0 0 0 9] 
[ 0 0 9 959 20 0 0 0 3 0] 
[ 0 0 9 847 9 45 0 0 0 0] 
[ 0 0 9 914 0 1 42 0 1 0] 
[ 0 0 9 977 0 0 0 51 0 0] 
[ 0 0 0 952 0 0 0 9 22 0] 
[ 0 0 1 1006 0 0 0 0 0 21] 

所 有 目标 类 别 的 对 抗 噪声 


是 帮助 函数 用 EG 的 对 抗 噪声 。 函 数 从 类 型 号 0 遍历 到 9， 执 行 上 
当 果 保存 到 一 个 数组 中 。 


def find all noise(num iterations-1000): 
# Adversarial noise for all target-classes. 
all noise - [] 


4 For each target-class. 
for i in range(num classes): 
print("Finding adversarial noise for target-class:", i) 


# Reset the adversarial noise to zero. 
init noise() 


4 Optimize the adversarial noise. 
optimize(num iterations-num iterations, 
adversary target cls-i) 
4 Get the adversarial noise from inside the TensorFlow g 
raph. 
noise - get noise() 


4 Append the noise to the array. 
all noise.append(noise) 


# Print newline. 
print() 


return all_noise 


all noise = find_all_noise(num_iterations=300) 


Finding adversarial noise for target-class: 0 


Optimization Iteration: 0, Training Accuracy: 9.4% 
Optimization Iteration: 100, Training Accuracy: 90.6% 
Optimization Iteration: 200, Training Accuracy: 92.2% 
Optimization Iteration: 299, Training Accuracy: 93.8% 


Time usage: 0:00:01 


Finding adversarial noise for target-class: 1 


Optimization Iteration: 0, Training Accuracy: 7 . 8% 
Optimization Iteration: 100, Training Accuracy: 62.5% 
Optimization Iteration: 200, Training Accuracy: 62.5% 
Optimization Iteration: 299, Training Accuracy: 75.0% 


Time usage: 0:00:01 


Finding adversarial noise for target-class: 2 


Optimization Iteration: 0, Training Accuracy: 7.8% 
Optimization Iteration: 100, Training Accuracy: 93.8% 
Optimization Iteration: 200, Training Accuracy: 95.3% 
Optimization Iteration: 299, Training Accuracy: 96.9% 


Time usage: 0:00:01 


Finding adversarial noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Time usage: 0:00:01 


Finding adversarial noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Time usage: 0:00:01 


Finding adversarial noi 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Time usage: 0:00:01 


Finding adversarial noi 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Time usage: 0:00:01 


Finding adversarial noi 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Time usage: 0:00:01 


Finding adversarial noi 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Time usage: 0:00:01 


Finding adversarial noi 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 
Time usage: 0:00:01 


制 所 有 目标 类 


型 的 对 抗 噪声 


0, 
100, 
200, 
299, 


0, 
100, 
200, 
299, 


se 
0, 

190, 
200, 
299, 


se 
0, 

100, 
200, 
299, 


se 
0, 

100, 
200, 
299, 


se 
0, 

100, 
200, 
299, 


se 
0, 

100, 
200, 
299, 


To 


for target-class: 3 

Training Accuracy: 
Training Accuracy: 
Training Accuracy: 
Training Accuracy: 


for target-class: 4 

Training Accuracy: 
Training Accuracy: 
Training Accuracy: 
Training Accuracy: 


for target-class: 5 

Training Accuracy: 
Training Accuracy: 
Training Accuracy: 
Training Accuracy: 


for target-class: 6 

Training Accuracy: 
Training Accuracy: 
Training Accuracy: 
Training Accuracy: 


for target-class: 7 

Training Accuracy: 
Training Accuracy: 
Training Accuracy: 
Training Accuracy: 


for target-class: 8 

Training Accuracy: 
Training Accuracy: 
Training Accuracy: 
Training Accuracy: 


for target-class: 9 

Training Accuracy: 
Training Accuracy: 
Training Accuracy: 
Training Accuracy: 


98 


96 
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这 个 帮助 函数 用 于 在 栅 格 中 绘制 所 有 目标 类 型 (0519) 的 对 抗 噪声 。 


def plot_all_noise(all_noise): 
# Create figure with 10 sub-plots. 
fig, axes = plt.subplots(2, 5) 
fig.subplots_adjust(hspace=0.2, wspace=0.1) 


# For each sub-plot. 

for i, ax in enumerate(axes.flat): 
# Get the adversarial noise for the i'th target-class. 
noise = all noise[i] 


# Plot the noise. 

ax.imshow(noise, 
cmap='seismic', interpolation='nearest', 
vmin=-1.0, vmax=1.0) 


# Show the classes as the label on the x-axis. 
ax.set_xlabel(i) 


# Remove ticks from the plot. 
ax.set_xticks([]) 
ax.set_yticks([]) 


# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show( ) 


plot_all_noise(all_noise) 





在 其 中 一 些 噪声 图 像 中 ， 你 可 以 看 到 数字 的 痕迹 。 例 如 ， 目 标 类 型 0 的 噪声 显示 了 
一 个 被 蓝 色 包围 的 红 轿 。 这 说 明 会 以 圆 形状 将 一 些 噪声 添加 到 图 像 中 ， 并 抑制 其 他 
像素 。 这 足以 让 MNIST 数 据 集中 的 大 部 分 图 像 被 误 分 类 成 0。 另外 一 个 例子 是 3 的 骂 
声 ， 图 像 的 红色 像素 也 显示 了 数字 3 的 痕迹 。 但 其 他 类 别 的 噪声 不 太 明 显 。 


对 抗 噪声 的 免疫 


现在 试 着 让 神经 网 络 对 对 抗 噪声 免疫 。 我 们 重新 训练 神经 网 络 ， 使 其 忽略 对 抗 噪 
声 。 这 个 过 程 可 以 重复 多 次 。 


帮助 函数 创建 了 对 对 抗 噪 


de d 
FP 
这 是 使 神 经 网 络 对 对 抗 噪声 免疫 的 
执行 常规 优化 使 神经 网 络 对 该 噪声 


免疫 的 神经 网 络 


帮助 到 数 。 首 先 运 行 优化 来 找到 对 抗 噪声 。 接 着 
免疫 。 


def make_immune(target_cls, num_iterations_adversary=500, 
num iterations immune-200): 


print("Target-class:", target cls) 
print("Finding adversarial noise ...") 


# Find the adversarial noise. 
optimize(num iterations-num iterations adversary, 
adversary target cls-target cls) 


4 Newline. 
print() 


# Print classification accuracy. 
print test accuracy(show example errors-False, 
show confusion matrix-False) 


# Newline. 
print() 


print("Making the neural network immune to the noise ...") 

# Try and make the neural network immune to this noise. 

# Note that the adversarial noise has not been reset to zero 
# so the x noise variable still holds the noise. 


# So we are training the neural network to ignore the noise. 
optimize(num iterations-num iterations immune) 


4 Newline. 
print() 


# Print classification accuracy. 


print test accuracy(show example errors-False, 
show confusion matrix-False) 


对 目标 类 型 3 的 噪声 免疫 
首先 尝试 使 神经 网 络 对 目标 类 型 3 的 对 抗 噪声 免疫 


a 导致 神经 网 络 误 分 类 测试 集 上 大 多 数 图像 的 对 抗 噪声 。 接 着 执行 常规 优 
化 ， 其 变量 经 过 微调 从 而 忽略 噪声 ， 使 得 分 类 准确 率 再 次 达到 95-97%。 


make_immune(target_cls=3) 


Target-class: 


Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Time usage: 0 


3 


00:02 


Accuracy on Test -Set: 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


14.4% (1443 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Time usage: 0: 


Iteration: 
Iteration: 
Iteration: 


00:01 


Accuracy on Test-Set: 


现在 试 着 再 次 运行 


得 对 对 抗 噪声 有 些 


make_immune(target_cls=3) 


Target-class: 


Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Time usage: 0: 


Accuracy on T 


它 。 
免疫 。 


3 


00 :02 


Est seb: 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


现在 更 难为 目标 类 别 3 找 到 对 抗 噪声 


Training 
Training 
Training 
Training 
Training 
Training 


95.3% (9529 / 10000) 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


72.1% (7207 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Time usage: 0: 


Accuracy on T 


对 所 有 目标 类 


Iteration: 
Iteration: 
Iteration: 


00:01 


est-Set: 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


95.296 (9519 / 10000) 
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0% 
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现在 ， 试 着 使 神经 网 络 对 所 有 目标 类 型 的 


for i in range(10): 
make immune(target cls-i) 


print() 


Target-class: 0 


Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Time usage: 0:00:02 
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Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 23.3% (2326 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 95.6% (9559 / 10000) 


Target-class: 1 


Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 42.2% (4218 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 95.5% (9555 / 10000) 


Target-class: 2 


Finding adversarial noise 
Optimization Iteration: 


0, Training Accuracy: 
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Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


100, 
200, 
300, 
400, 
499, 


Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 46.4% (4639 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 95.596 (9545 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


3 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 56.596 (5648 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 95.896 (9581 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


4 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 15.6% (1557 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 
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Time usage: 0:00:01 


Accuracy on Test-Set: 95.6% (9557 / 10000) 


Target-class: 
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Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 17.4% (1745 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.0% (9601 / 10000) 


Target-class: 
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Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 17.6% (1762 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 95.7% (9570 / 10000) 


Target-class: 
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Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


18. 
71. 
90. 
95. 
89. 
923 


als): 


96 


95. 


10. 
81. 
93. 
92. 
89. 
92% 


20. 
93. 
95. 


14 
93 
98 
100 
96 
100 


8% 
9% 
6% 
3% 
1% 
2% 


6% 
. 9% 
3% 


9% 
2% 
8% 
2% 
1% 
2% 


3% 
8% 
3% 


.1% 
. 8% 
. 4% 
. 0% 
. 9% 
. 0% 


Accuracy on Test-Set: 12.8% (1281 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 95.9% (9587 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


8 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 24.9% (2493 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.0% (9601 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
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Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 45.596 (4546 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.296 (9615 / 10000) 


12. 


98 


25. 
95 . 
96 . 


51. 
95. 
. 3% 


95 


5% 


. 4% 
98. 


4% 


. 1% 
. 1% 
. 2% 
. 9% 
.1% 
. 4% 


0% 
3% 
9% 


. 4% 
. 4% 
. 0% 
.1% 
.1% 
. 6% 


6% 
3% 


对 所 有 目标 类 别 免 疫 〈 执 行 两 次 ) 


现在 试 着 执行 两 次 ， 使 神经 网 络 对 所 有 目标 类 别 的 噪声 免疫 。 
太 好 。 


使 神经 网 络 免 受 一 个 对 抗 目标 类 型 的 影响 ， 似 乎 使 得 它 对 另外 一 个 目标 类 型 失去 了 
免疫 。 


不 幸 的 是 ， 结 果 也 不 


for i in range(10): 
make immune(target cls-i) 


Pr Tit 


print () 


new 


line 


make immune(target cls-i) 


Print 


print() 


n 


Target-class: 


Finding adversarial noise 


ewline 


9 


Optimization Iteration: ©, Training Accuracy: 7.8% 
Optimization Iteration: 100, Training Accuracy: 53.1% 
Optimization Iteration: 200, Training Accuracy: 73.4% 
Optimization Iteration: 300, Training Accuracy: 79.7% 
Optimization Iteration: 400, Training Accuracy: 84.4% 
Optimization Iteration: 499, Training Accuracy: 95.3% 
Time usage: 0:00:02 

Accuracy on Test-Set: 29.2% (2921 / 10000) 

Making the neural network immune to the noise 
Optimization Iteration: ©, Training Accuracy: 29.7% 
Optimization Iteration: 100, Training Accuracy: 96.9% 
Optimization Iteration: 199, Training Accuracy: 95.3% 
Time usage: 0:00:01 

Accuracy on Test-Set: 96.2% (9619 / 10000) 

Target-class: 0 

Finding adversarial noise : 

Optimization Iteration: 0, Training Accuracy: 1.696 
Optimization Iteration: 100, Training Accuracy: 12.596 
Optimization Iteration: 200, Training Accuracy: 1.896 
Optimization Iteration: 300, Training Accuracy: 18.896 
Optimization Iteration: 400, Training Accuracy: 9.4% 
Optimization Iteration: 499, Training Accuracy: 9.4% 


Time usage: 


0:00:02 


Accuracy on Test-Set: 


94.4% (9437 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.496 (9635 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


1 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 28.7% (2875 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.496 (9643 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


1 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 94.3% (9428 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.996 (9685 / 10000) 


Target-class: 
Finding adversarial noise 
Optimization Iteration: 
Optimization Iteration: 


2 


0, Training Accuracy: 
100, Training Accuracy: 


89 . 
. 4% 
93 . 


98 


39. 
. 4% 
957 


98 


95. 
. 3% 
92. 


95 


1% 


8% 


. 8% 
. 2% 
. 9% 
. 0% 
. 3% 
. 9% 


1% 


3% 


. 8% 
. 6% 
. 8% 
. 596 
. 4% 
. 5% 


3% 


2% 


. 2% 
. 9% 


Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


200, 
300, 
400, 
499, 


Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 34.3% (3427 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.696 (9657 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


2 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 94.3% (9435 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.696 (9664 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


3 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 48.4% (4837 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


64. 
abe 
75. 
82. 


31. 
100. 


98 


96. 


98 
96 


14. 


20 


40. 
Sie 
54. 
64. 


54 
93 
100 


1% 
9% 
0% 
8% 


2% 
0% 
. 4% 


. 296 
. 4% 
. 196 
. 9% 
. 8% 
. 2% 


996 
. 4% 
. 9% 


1% 
. 3% 
6% 
8% 
7% 
1% 


. 1% 
. 4% 
. 0% 


Accuracy on Test-Set: 96.5% (9650 / 10000) 


Target-class: 


3 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 95.7% (9570 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.796 (9667 / 10000) 


Target-class: 


4 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 23.796 (2373 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.396 (9632 / 10000) 


Target-class: 


4 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


95. 
90. 


98 


26. 
95. 
96. 


. 1% 
. 9% 
17. 
15. 
. 6% 
. 4% 


2% 
6% 


3% 
6% 
. 4% 


. 8% 
. 296 
. 196 
. 1% 
. 296 
. 9% 


6% 
3% 
9% 


. 1% 
. 8% 
. 5% 
. 6% 
. 8% 
. 1% 


Accuracy on Test-Set: 92.0% (9197 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.3% (9632 / 10000) 


Target-class: 


5 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 23.0% (2297 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.696 (9663 / 10000) 


Target-class: 


5 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 88.296 (8824 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.796 (9665 / 10000) 


Target-class: 


6 


Finding adversarial noise 


Optimization 


Iteration: 


0, Training Accuracy: 


92 . 
95. 
95. 


28. 
93. 
. 4% 


98 


93. 
93. 
93. 


2% 
3% 
3% 


. 1% 
. 8% 
. 6% 
. 9% 
. 196 
. 996 


1% 
8% 


. 2% 
. 9% 
. 8% 
. 8% 
. 3% 
. 9% 


8% 
8% 
8% 


. 8% 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


100, 
200, 
300, 
400, 
499, 


Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 44.0% (4400 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.496 (9642 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


6 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 94.696 (9457 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 96.896 (9682 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
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Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 18.1% (1809 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


40. 
53. 
Sa 
56. 
62. 


39. 
96. 
93 . 


93 . 
100. 
95. 


23 
95 


6% 
1% 
6% 
2% 
5% 


1% 
9% 
8% 


. 1% 
. 2% 
. 5% 
. 196 
. 3% 
. 8% 


8% 
0% 
3% 


. 1% 
. 6% 
. 1% 
. 8% 
. 9% 
. 6% 


. 4% 
. 3% 
93 . 


8% 


Time usage: 0:00:01 


Accuracy on Test-Set: 96.8% (9682 / 10000) 


Target-class: 


7 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 84.1% (8412 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


©, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 97.0% (9699 / 10000) 


Target-class: 


8 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 36.896 (3678 / 10000) 


Making the neural network immune to the noise 


Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 97.0% (9699 / 10000) 


Target-class: 


8 


Finding adversarial noise 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


12. 
10. 
18. 
18. 
28. 
18. 


84 


48 


5% 
9% 
8% 
8% 
1% 
8% 


. 4% 
100. 
100. 


0% 
0% 


. 8% 
. 4% 
. 996 
. 9% 
. 3% 
. 0% 


. 4% 
96. 
93. 


9% 
8% 


. 8% 
. 196 
. 596 
. 8% 
. 1% 
. 4% 


Accuracy on Test-Set: 96.2% (9625 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 97.2% (9720 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
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Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 64.9% (6494 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 97.5% (9746 / 10000) 


Target-class: 
Finding adversarial noise 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 
Iteration: 


Optimization 
Optimization 
Optimization 
Optimization 
Optimization 
Optimization 


9 


Time usage: 0:00:02 


Training 
Training 
Training 
Training 
Training 
Training 


Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 
Accuracy: 


Accuracy on Test-Set: 97.1% (9709 / 10000) 


Making the neural network immune to the noise 


Optimization Iteration: 
Optimization Iteration: 
Optimization Iteration: 


Time usage: 0:00:01 


0, Training Accuracy: 
100, Training Accuracy: 
199, Training Accuracy: 


Accuracy on Test-Set: 97.796 (9768 / 10000) 


96. 


98 


95. 


67. 
95% 


98 


98 
100 
95 


9% 
. 4% 
3% 


. 4% 
. 4% 
. 8% 
. 5% 
. 3% 
.1% 


2% 
3% 
. 4% 


. 4% 
. 8% 
. 9% 
. 6% 
. 5% 
. 1% 


. 4% 
. 0% 
. 3% 


ZH Xt GU P 


现在 我 们 已 经 对 神经 网 络 和 对 抗 网 络 都 进行 了 很 多 优化 。 让 我 们 看 看 对 抗 噪声 长 什 
么 样 。 


plot_noise() 


Noise 
- Min: -0.35 
- Max: 0.35 


- Std: 0.270488 





0 5 10 15 20 25 


有 趣 的 是 ， 相 比 优化 之 前 的 干净 图 像 ， 神 经 网 络 在 噪声 图 像 上 有 更 高 的 分 类 准确 
ES o 


print test accuracy(show example errors-irue, 
show confusion matrix-True) 


Accuracy on Test-Set: 97.7% (9768 / 10000) 
Example errors: 


名 9 T 


True: 6, Pred: 0 True: 2, Pred: 3 True: 9, Pred: 1 





True: 2, Pred: 7 True: 6, Pred: 4 True: 6, Pred: 5 
True: 3, Pred: 5 True: 9, Pred: 8 True: 4, Pred: 1 


Confusion Matrix: 


[[ 972 0 1 0 0 0 2 1 3 
[ © 1119 4 0 0 2 2 0 8 
[ 3 © 1006 9 1 1 a 5 4 
[ 1 0 1 997 0 5 0 4 2 
[ 0 1 3 0 955 0 3 1 2 
[ 1 0 0 9 © 876 3 0 2 
[ 6 4 0 0 3 6 934 0 5 
[ 2 4 18 3 1 0 9 985 2 
[ 4 0 4 3 4 TEES 3 950 
[ 6 6 0 7 4 5 0 4 3 

干净 图 像 上 的 性 能 


1] 
0] 
2] 
0] 
17] 
1] 
0] 
13] 
4] 
974]] 


现在 将 对 抗 噪声 重 置 为 零 ， 看 看 神经 网 络 在 干净 图 像 上 的 表现 。 


init_noise() 


相 比 噪声 图 像 ， 神 经 网 络 在 干净 图 像 上 表现 的 要 更 差 一 点 。 


print_test_accuracy(show_example_errors=True, 


show_confusion_matrix=True) 


Accuracy on Test-Set: 92.2% (9222 / 10000) 
Example errors: 


True: 9, Pred: 4 True: 7, Pred: 2 True: 8, Pred: 2 
True: 9, Pred: 5 True: 9, Pred: 8 True: 9, Pred: 4 
True: 9, Pred: 4 True: 7, Pred: 2 True: 9, Pred: 5 


Confusion Matrix: 


[[ 970 0 1 0 0 1 8 0 0 0] 
[ 0 1121 5 0 0 0 9 0 0 0] 
Il 2 1 1028 0 0 0 1 0 0 0] 
[ 1 © 27 964 @ 13 2 2 1 9] 
[ 0 2 3 9 957 9 20 0 0 0] 
[ 3 0 2 2 © 875 10 0 0 0] 
[ 4 1 0 0 1 1 951 0 0 9] 
[ 10 21 61 3 14 3 © 913 3 9] 
[ 29 2 91 7 7 26 70 1 741 9] 
[ 20 18 10 12 150 65 11 12 9 702]] 


X HlTensorFlow A 
现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

4 session.close() 


讨论 


在 上 面 的 实验 中 可 以 看 到 ， 我 们 能 够 使 神经 网 络 对 单个 目标 类 别 的 对 抗 噪声 免疫 。 
这 使 得 不 可 能 找到 引起 误 分 类 到 目标 类 型 的 对 抗 噪声 。 但 是 ， 显 然 也 不 可 能 使 神经 
网 络 同时 对 所 有 目标 类 别 免 疫 。 可 能 用 其 他 方法 能 够 做 到 这 一 点 。 


一 种 建议 是 对 不 同 目标 类 型 进行 交叉 的 免疫 训练 ， 而 不 是 依次 对 每 个 目标 类 型 进行 
完全 的 优化 。 对 上 面 的 代码 做 些小 修改 就 能 做 到 这 一 点 。 


另 一 个 建议 是 设置 两 层 神经 网 络 ， 共 11 个 网 络 。 第 一 层 网 络 用 来 对 输入 图 像 进行 分 
类 。 这 个 网 络 没 有 对 对 抗 噪声 免疫 。 然 后 根据 第 一 层 的 预测 类 型 选择 第 二 层 的 另 一 
个 网 络 。 第 二 层 中 的 网 络 对 各 自 目标 类 型 的 对 抗 噪声 免疫 。 因 此 ， 一 个 对 抗 样本 可 
能 糊弄 第 一 层 的 网 络 ， 但 第 二 层 中 的 网 络 会 免 于 特定 目标 类 型 噪声 的 影响 。 


这 可 能 使 用 了 类 型 数量 比较 少 的 情况 ， 但 如 果 数 量 很 大 就 变 得 不 可 行 ， 比 如 
ImageNet 有 1000 个 类 别 ， 这 样 我 们 在 第 二 层 中 需要 训练 1000 个 神经 网 络 ， 这 并 不 
实际 。 


这 篇 教程 展示 了 如 何 找到 MNIST 数 据 集 手写 数字 的 对 抗 噪声 。 每 个 目标 类 别 都 找到 
了 一 个 单一 的 噪声 模式 ， 它 导致 几乎 所 有 的 输入 图 像 都 被 误 分 类 为 目标 类 别 。 


MNIST 数 据 集 的 噪声 模式 对 人 眼 清 晰 可 见 。 但 可 能 在 高 分 辨 率 图 像 上 (比如 
ImageNet 数 据 集 ) 工作 的 大 型 神经 网 络 可 以 找到 更 细微 的 噪声 模式 。 


本 教程 也 尝试 了 使 神经 网 络 免 受 对 抗 噪声 影响 的 方法 。 这 对 单个 目标 类 别 有 效 ， 但 
所 测试 的 方法 无 法 使 神经 网 络 同 时 对 所 有 对 抗 目 标 类 别 免 疫 。 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建 议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


。 尝试 为 对 抗 噪声 使 用 更 少 或 更 多 的 优化 选 代数 。 

e. 教程 #11 只 需 少 于 30 次 的 迭代 次 数 就 能 找到 对 抗 噪声 ， 相 比 之 下 为 什么 这 篇 教 
程 需要 更 多 迭代 ? 

e 尝试 设置 不 同 的 noise limit 和 noise 12 weight 。 这 会 如 何 影响 对 抗 
RE AARD KERR? 

e 试 着 为 目标 类 型 1 寻找 对 抗 噪声 。 它 是 否 适用 于 目标 类 型 3? 

e 你 能 找到 一 个 更 好 的 方法 ， 使 得 神经 网 络 对 对 抗 噪声 免疫 吗 ? 

e 神经 网 络 是 否 可 以 对 单个 图 像 产生 的 对 抗 噪声 免疫 ， 就 像 教程 #11 中 所 做 的 那 
样 ? 

e 尝试 用 不 同 的 配置 创建 另 一 个 神经 网 络 。 一 个 网 络 上 的 对 抗 噪声 对 另 一 个 网 络 
有 效 吗 ? 

e. 用 CIFAR-10 数 据 集 代 蔡 MNIST。 你 可 以 复 用 教程 #06 中 的 一 些 代码 。 

e 你 会 如 何 找 到 |nception 模 型 和 |mageNet 数 据 集 的 对 抗 噪声 ? 

e 向 朋友 解释 程序 如 何 工作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #13 


可 视 化 分 析 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist/Github 


介绍 


在 之 前 的 一 些 关于 卷 积 神经 网 络 的 教程 中 ， 我 们 展示 了 卷 积 滤波 权重 ， 比 如 教程 
#02 和 #06。 但 单 从 滤波 权重 上 看 ， 不 可 能 确定 卷 积 滤波 器 能 从 输入 图 像 中 识别 出 什 
A (ai 


本 教程 中 ， 我 们 会 提出 一 种 用 于 可 视 化 分 析 神 经 网 络 内 部 工作 原理 的 基本 方法 。 这 
个 方法 就 是 生成 最 大 化 神经 网 络 内 个 体 特征 的 图 像 。 图 像 用 一 些 随 机 噪声 初始 化 ， 
然后 用 给 定 特 征 关 于 输入 图 像 的 梯度 来 逐渐 改变 (生成 的 ) B 

可 视 化 分 析 神 经 网 络 的 方法 也 称 为 特征 最 大 化 (feature maximization) 或 激活 最 
大 化 (activation maximization) 。 


本 文 基 于 之 前 的 教程 。 你 需要 大 概 地 熟悉 神经 网 络 〈 详 见 教程 #01 和 #0O2) ， 了 解 
Inception 模 型 也 很 有 帮助 (教程 #07) 。 


流程 图 

这 里 将 会 使 用 教程 #07 中 的 Inception 模 型 。 我 们 想 要 找到 使 得 神经 网 络 内 给 定 特 征 
最 大 化 的 图 像 。 输 入 图 像 用 一 些 噪声 初始 化 ， 然 后 用 给 定 特 征 的 梯度 来 更 新 图 像 。 
在 执行 了 一 些 优 化 迭代 之 后 ， 我 们 会 得 到 一 个 这 个 特定 特征 “喜欢 看 到 的 "图 像 。 

由 于 Inception 模 型 是 由 很 多 相 结 合 的 基本 数学 运算 构 造 的 ， 使 用 微分 链 式 法 则 > 
TensorFlow 让 我 们 很 快 就 能 找到 损失 函数 的 梯度 。 


from IPython.display import Image, display 
Image('images/13_visual_analysis_flowchart.png' ) 


Inception v3 Model 
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Use gradient for a feature to update input image 
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%matplotlib inline 

import matplotlib.pyplot as plt 
import tensorflow as tf 

import numpy as np 


# Functions and classes for loading and using the Inception mode 
ie 
import inception 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


“he lo) 


Inception 模型 


从 网 上 下 载 Inception 模 型 


从 网 上 下 载 Inception 模 型 。 这 是 你 保存 数据 文件 的 默认 文件 夹 。 如 果 文 件 夹 不 存在 
就 自动 创建 。 


# inception.data dir = 'inception/' 


如 果 文 件 夹 中 不 存在 Inception 模 型 ， 就 自动 下 载 。 它 有 85MB >» 
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inception.maybe download() 


Downloading Inception v3 Model ... 

- Download progress: 100.0% 
Download finished. Extracting files. 
Done. 


卷 积 层 的 名 称 
这 个 函数 返回 Inception 模 型 中 卷 积 层 的 名 称 列表 。 
def get_conv_layer_names(): 
# Load the Inception model. 


model = inception. Inception() 


# Create a list of names for the operations in the graph 
# for the Inception model where the operator-type is 'Conv2D 


names = [op.name for op in model.graph.get_operations() if o 
p.type=='Conv2D' ] 


# Close the TensorFlow session inside the model-object. 
model.close() 


return names 





conv names = get conv layer names() 
在 Inception 模 型 中 总 共有 94 个 卷 积 层 。 

len(conv_names) 

94 


写 出 头 5 个 卷 积 层 的 名 称 。 


conv. names[:5] 


['conv/Conv2D', 
'conv_1/Conv2D', 
'conv_2/Conv2D', 
'conv_3/Conv2D', 
'conv_4/Conv2D'] 


写 出 最 后 5 个 卷 积 层 的 名 称 。 


conv. names[-5:] 


['mixed 10/tower 1/conv/Conv2D', 
'mixed 10/tower 1/conv 1/Conv2D', 
'mixed 10/tower 1/mixed/conv/Conv2D', 
'mixed 10/tower 1/mixed/conv 1/Conv2D', 
'mixed 10/tower 2/conv/Conv2D'] 


找到 输入 图 像 的 帮助 函数 


这 个 函数 用 来 寻找 使 网 络 内 给 定 特征 最 大 化 的 输入 图 像 。 它 本 质 上 是 用 梯度 法 来 进 
行 优 化 。 图 像 用 小 的 随机 值 初 始 化 ， 然 后 用 给 定 特 征 关 于 输入 图 像 的 梯度 来 逐步 更 
新 。 


def optimize_image(conv_id=None, feature=0, 
num_iterations=30, show_progress=True): 
Find an image that maximizes the feature 
given by the conv_id and feature number. 


Parameters: 
conv_id: Integer identifying the convolutional layer to 
maximize. It is an index into conv_names. 
If None then use the last fully-connected layer 
before the softmax output. 
feature: Index into the layer for the feature to maximize. 
num_iteration: Number of optimization iterations to perform. 
show_progress: Boolean whether to show the progress. 


# Load the Inception model. This is done for each call of 
# this function because we will add a lot to the graph 

# which will cause the graph to grow and eventually the 

# computer will run out of memory. 

model = inception. Inception() 


# Reference to the tensor that takes the raw input image. 
resized_image = model.resized_image 


Q3 
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# Reference to the tensor for the predicted classes. 
# This is the output of the final layer's softmax classifier. 


y_pred = model.y_pred 


# Create the loss-function that must be maximized. 
if conv_id is None: 
# If we want to maximize a feature on the last layer, 
# then we use the fully-connected layer prior to the 
# softmax-classifier. The feature no. is the class-number 


# and must be an integer between 1 and 1000. 
# The loss-function is just the value of that feature. 
loss = model.y_logits[0, feature] 
else: 
# If instead we want to maximize a feature of a 
# convolutional layer inside the neural network. 


# Get the name of the convolutional operator. 
conv name = conv names[conv id] 


4 Get a reference to the tensor that is output by the 
# operator. Note that ":0" is added to the name for this. 


tensor = model.graph.get tensor by name(conv name + ":0" 


# Set the Inception model's graph as the default 
4 so we can add an operator to it. 
with model.graph.as default(): 
# The loss-function is the average of all the 
# tensor-values for the given feature. This 
# ensures that we generate the whole input image. 
# You can try and modify this so it only uses 
# a part of the tensor. 
loss - tf.reduce mean(tensor[:,:,:,feature]) 


# Get the gradient for the loss-function with regard to 
# the resized input image. This creates a mathematical 
# function for calculating the gradient. 

gradient - tf.gradients(loss, resized image) 


# Create a TensorFlow session so we can run the graph. 
session = tf.Session(graph=model.graph) 


# Generate a random image of the same size as the raw input. 
# Each pixel is a small random value between 128 and 129, 

4 which is about the middle of the colour-range. 

image shape - resized image.get shape() 

image = np.random.uniform(size-image shape) + 128.0 


# Perform a number of optimization iterations to find 
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可 视 化 分 析 


# the image that maximizes the loss-function. 
for i in range(num_iterations): 
# Create a feed-dict. This feeds the image to the 
# tensor in the graph that holds the resized image, beca 
use 
# this is the final stage for inputting raw image data. 
feed_dict = {model.tensor_name_resized_image: image} 


# Calculate the predicted class-scores, 
# as well as the gradient and the loss-value. 
pred, grad, loss_value = session.run([y_pred, gradient, 
loss], 
feed_dict=feed_dict 


# Squeeze the dimensionality for the gradient-array. 
grad = np.array(grad).squeeze() 


# The gradient now tells us how much we need to change t 
he 
# input image in order to maximize the given feature. 


# Calculate the step-size for updating the image. 

# This step-size was found to give fast convergence. 

# The addition of 1e-8 is to protect from div-by-zero. 
step_size = 1.0 / (grad.std() + 1e-8) 


# Update the image by adding the scaled gradient 
# This is called gradient ascent. 
image += step_size * grad 


# Ensure all pixel-values in the image are between 0 and 
2557 
image = np.clip(image, 0.0, 255.0) 


if show_progress: 
print(“Iteration:", i) 


# Convert the predicted class-scores to a one-dim ar 
ray. 
pred = np.squeeze(pred) 


# The predicted class for the Inception model. 
pred_cls = np.argmax(pred) 


# Name of the predicted class. 
cls_name = model.name_lookup.cls_to_name(pred_cls, 
only_first_name=T 
rue) 


# The score (probability) for the predicted class. 
cls score = pred[pred_cls] 
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# Print the predicted score etc. 

msg = "Predicted class-name: {0} (#{1}), score: {2:> 
7.2%" 

print(msg.format(cls_name, pred_cls, cls score)) 


# Print statistics for the gradient. 

msg = "Gradient min: {0:>9.6f}, max: {1:>9.6f}, step 
size: 12:4-9 2f }" 

print(msg.format(grad.min(), grad.max(), step_size) ) 


# Print the loss-value. 
print("Loss:", loss_value) 


# Newline. 
print() 


# Close the TensorFlow session inside the model-object. 
model.close() 


return image.squeeze() 
BEER : 
绘制 图 像 和 噪声 的 帮助 函数 
函数 对 图 像 做 归 一 化 ， 则 像素 值 在 0.0 到 1.0 之 间 。 


def normalize_image(x): 
# Get the min and max values for all pixels in the input. 
x_min = x.min() 
x max x.max() 


# Normalize so all values are between 0.0 and 1.0 
x norm = (x - x min) / (x max - x min) 


return x norm 


这 个 函数 绘制 一 张 图 像 。 


def plot_image(image): 
# Normalize the image so pixels are between 0.0 and 1.0 
img_norm = normalize_image(image) 


# Plot the image. 


plt.imshow(img_norm, interpolation='nearest') 
plt.show() 


这 个 函数 在 坐标 系 内 绘制 6 张 图 。 


def plot_images(images, show_size=100): 


The show_size is the number of pixels to show for each image 


The max value is 299. 


# Create figure with sub-plots. 
fig, axes = plt.subplots(2, 3) 


# Adjust vertical spacing. 
fig.subplots_adjust(hspace=0.1, wspace=0.1) 


# Use interpolation to smooth pixels? 
smooth = True 


# Interpolation type. 


if smooth: 

interpolation = 'splinei6' 
else: 

interpolation = 'nearest' 


# For each entry in the grid. 

for i, ax in enumerate(axes.flat): 
# Get the i'th image and only use the desired pixels. 
img = images[i, 0:show size, 0:show size, :| 


# Normalize the image so its pixels are between 0.0 and 
img norm = normalize image(img) 


4 Plot the image. 
ax.imshow(img norm, interpolation-interpolation) 


# Remove ticks. 
ax.set xticks([]) 
ax.set yticks([]) 


# Ensure the plot is shown correctly with multiple plots 
# in a single Notebook cell. 
plt.show() 
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这 个 函数 优化 多 张 图 像 并 绘制 它们 。 


def optimize_images(conv_id=None, num_iterations=30, show_size=1 


00): 


Find 6 images that maximize the 6 first features in the laye 


given by the conv_id. 


Parameters: 

conv_id: Integer identifying the convolutional layer to 
maximize. It is an index into conv_names. 
If None then use the last layer before the softmax 


output. 


bye 


num_iterations: Number of optimization iterations to perform 


show_size: Number of pixels to show for each image. Max 299. 


# Which layer are we using? 
if conv_id is None: 

print("Final fully-connected layer before softmax.") 
else: 

print("Layer:", conv_names[conv_id]) 


# Initialize the array of images. 
images = [] 


For each feature do the following. Note that the 
last fully-connected layer only supports numbers 
between 1 and 1000, while the convolutional layers 
support numbers between 0 and some other number. 
So we just use the numbers between 1 and 7. 
or feature in range(1,7): 

print("Optimizing image for feature no.", feature) 


HF dt dt dk dk 


# Find the image that maximizes the given feature 
# for the network layer identified by conv id (or None). 
image - optimize image(conv id-conv id, feature-feature, 
show progress-False, 
num iterations-num iterations) 


# Squeeze the dim of the array. 
image - image.squeeze() 


4 Append to the list of images. 
images.append(image) 


# Convert to numpy-array so we can index all dimensions easi 
images - np.array(images) 


# Plot the images. 
plot images(images-images, show size-show size) 
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为 浅 处 的 卷 积 层 优 化 图 像 


举 个 例子 ， 寻 找 让 卷 积 层 conv_names[conv_id] 中 的 2 号 特征 最 大 化 的 输入 图 
像 ， 其 中 conv_id=5 。 


image = optimize_image(conv_id=5, feature=2, 
num_iterations=30, show_progress=True) 


Iteration: 0 

Predicted class-name: dishwasher (#667), score: 4.81% 
Gradient min: -0.000083, max: 0.000100, stepsize: 76290.32 
Loss: 4.83793 


Iteration: 1 

Predicted class-name: kite (#397), score: 15.12% 

Gradient min: -0.000142, max: 0.000126, stepsize: 71463.42 
Loss: 5.59611 


Iteration: 2 

Predicted class-name: wall clock (#524), score: 6.85% 
Gradient min: -0.000119, max: 0.000121, stepsize: 80427.39 
Loss: 6.91725 


Iteration: 3 

Predicted class-name: syringe (#531), score: 4.69% 
Gradient min: -0.000124, max: 0.000116, stepsize: 87046.41 
Loss: 7.93267 


Iteration: 4 

Predicted class-name: syringe (#531), score: 6.53% 
Gradient min: -0.000115, max: 0.000122, stepsize: 94634.06 
Loss: 8.85594 


Iteration: 5 

Predicted class-name: syringe (#531), score: 21.31% 
Gradient min: -0.000108, max: 0.000131, stepsize: 103182.49 
Loss: 9.70698 


Iteration: 6 

Predicted class-name: syringe (#531), score: 36.39% 
Gradient min: -0.000102, max: 0.000099, stepsize: 111440.73 
Loss: 10.4558 


Iteration: 7 

Predicted class-name: syringe (#531), score: 43.79% 
Gradient min: -0.000100, max: 0.000083, stepsize: 119285.09 
Loss: 11.1371 


Iteration: 8 
Predicted class-name: syringe (#531), score: 34.85% 


Gradient min: -0.000078, max: 0.000098, stepsize: 126258. 


Loss: 11.7331 


Iteration: 9 
Predicted class-name: syringe (#531), score: 18.28% 


Gradient min: -0.000075, max: 0.000071, stepsize: 133766. 


Loss: 12.2777 


Iteration: 10 
Predicted class-name: syringe (#531), score: 11.91% 


Gradient min: -0.000072, max: 0.000079, stepsize: 139181. 


Loss: 12.7673 


Iteration: 11 

Predicted class-name: binder (#835), score: 13.27% 
Gradient min: -0.000079, max: 0.000070, stepsize: 145263 
Loss: 13.2062 


Iteration: 12 
Predicted class-name: binder (#835), score: 15.05% 


Gradient min: -0.000060, max: 0.000101, stepsize: 150589. 


Loss: 13.6149 


Iteration: 13 
Predicted class-name: binder (#835), score: 14.79% 


Gradient min: -0.000074, max: 0.000072, stepsize: 156626. 


Loss: 13.9922 


Iteration: 14 
Predicted class-name: binder (#835), score: 14.44% 


Gradient min: -0.000078, max: 0.000062, stepsize: 160979. 


Loss: 14.3428 


Iteration: 15 
Predicted class-name: binder (#835), score: 11.76% 


Gradient min: -0.000081, max: 0.000081, stepsize: 164249. 


Loss: 14.6689 


Iteration: 16 
Predicted class-name: binder (#835), score: 9.61% 


Gradient min: -0.000069, max: 0.000073, stepsize: 169375. 


Loss: 14.968 


Iteration: 17 
Predicted class-name: binder (#835), score: 7.51% 


Gradient min: -0.000060, max: 0.000086, stepsize: 173951. 


Loss: 15.2644 


Iteration: 18 
Predicted class-name: binder (#835), score: 6.16% 


Gradient min: -0.000057, max: 0.000074, stepsize: 176921. 


Loss: 15.5303 
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Iteration: 19 


Predicted class-name: quilt (#976), score: 


Gradient min: -0.000067, max: 0.000068, 
Loss: 15.7967 

Iteration: 20 

Predicted class-name: quilt (#976), score: 
Gradient min: -0.000068, max: 0.000063, 
Loss: 16.0442 

Iteration: 21 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000048, max: 0.000066, 
Loss: 16.2883 

Iteration: 22 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000060, max: 0.000047, 
Loss: 16.5165 

Iteration: 23 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000064, max: 0.000049, 
Loss: 16.7361 

Iteration: 24 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000054, max: 0.000047, 
Loss: 16.9544 

Iteration: 25 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000045, max: 0.000049, 
Loss: 17.1659 

Iteration: 26 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000047, max: 0.000047, 
Loss: 17.3637 

Iteration: 27 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000056, max: 0.000059, 
Loss: 17.559 

Iteration: 28 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000043, max: 0.000043, 
Loss: 17.7469 

Iteration: 29 

Predicted class-name: bib (#941), score: 
Gradient min: -0.000047, max: 0.000059, 


7.74% 


stepsize: 


9.43% 


stepsize: 


11.05% 


stepsize: 


12.59% 


stepsize: 


15.13% 


stepsize: 


15.91% 


stepsize: 


17.96% 


stepsize: 


19.26% 


stepsize: 
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Loss: 17.9321 


plot_image(image) 
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为 卷 积 层 优 化 多 张 图 像 


下 面 ， 我 们 为 Inception 模 型 中 的 卷 积 层 优 化 多 张 图 像 ， 并 绘制 它们 。 这 些 图 像 展 ; 
了 卷 积 层 " 想 看 到 的 "内 容 。 注 意 更 深 的 层次 里 图 案 变 得 越 来 越 复 杂 。 


optimize_images(conv_id=0, num_iterations=10) 


Layer: conv/Conv2D 


Optimizing image 
Optimizing image 
Optimizing image 
Optimizing image 
Optimizing image 


optimize_images(conv_id=3, num_iterations=30) 


for 
for 
for 
for 
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feature 
feature 
feature 
feature 
feature 
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可 视 化 分 析 


Layer: conv_3/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=4, num_iterations=30) 


Layer: conv_4/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=5, num_iterations=30) 


Layer: mixed/conv/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=6, num_iterations=30) 
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Layer: mixed/tower/conv/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 


optimize_images(conv_id=/, num_iterations=30) 


1 
2 
3 
4 
5 
6 








Layer: mixed/tower/conv_1/Conv2D 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=8, num_iterations=30) 


Layer: mixed/tower_1/conv/Conv2D 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize images(conv id-9, num_iterations=30) 
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Layer: mixed/tower_1/conv_1/Conv2D 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 


n 


optimize_images(conv_id=10, num_iterations=30) 
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Layer: mixed/tower_1/conv_2/Conv2D 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=20, num_iterations=30) 


Layer: mixed_2/tower/conv/Conv2D 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=30, num_iterations=30) 
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Layer: mixed_4/conv/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 


optimize_images(conv_id=40, num_iterations=30) 
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Layer: mixed_5/conv/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=50, num_iterations=30) 


Layer: mixed_6/conv/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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optimize_images(conv_id=60, num_iterations=30) 
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可 视 化 分 析 


Layer: mixed_7/conv/Conv2D 

Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 


optimize_images(conv_id=/0, num_iterations=30) 


OnBRWNE 


Layer: mixed_8/tower/conv/Conv2D 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 


OUPONH 


348 


可 视 化 分 析 





optimize_images(conv_id=80, num_iterations=30) 


Layer: mixed_9/tower_1/conv/Conv2D 


Optimizing 
Optimizing 
Optimizing 
Optimizing 
Optimizing 
Optimizing 





optimize_images(conv_id=90, num_iterations=30) 


image 
image 
image 
image 
image 
image 
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Layer: mixed 10/tower 1/conv 1/Conv2D 
no. 
no. 
no. 
no. 
no. 
no. 


Optimizing 
Optimizing 
Optimizing 
Optimizing 
Optimizing 
Optimizing 


optimize images(conv id-93, num iterations-30) 


Layer: mixed 10/tower 2/conv/Conv2D 
no. 
no. 
no. 
no. 
no. 
no. 


Optimizing 
Optimizing 
Optimizing 
Optimizing 
Optimizing 
Optimizing 


image 
image 
image 
image 
image 
image 


image 
image 
image 
image 
image 
image 
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for 
for 
for 
for 
for 


for 
for 
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feature 
feature 
feature 
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Softmax 前 最 终 的 全 连接 层 


现在 ， 我 们 为 Inception 模 型 中 的 最 后 一 层 优化 并 绘制 图 像 。 这 是 在 softmax 分 类 器 
前 的 全 连接 层 。 该 层 特征 对 应 了 输出 的 类 别 。 


我 们 可 能 希望 在 这 些 图 像 里 看 到 一 些 可 识别 的 图 案 ， 比 如 对 应 输出 类 别 的 猴子 、 乌 
类 等 ， 但 图 像 只 显示 了 一 些 复 杂 的 、 抽 象 的 图 案 。 


optimize_images(conv_id=None, num_iterations=30) 


Final fully-connected layer before softmax. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
Optimizing image for feature no. 
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上 面 只 显示 了 100x100 像 素 的 图 像 ， 但 实际 上 是 299x299 像 素 。 如 果 我 们 执行 更 多 
的 优化 迭代 并 画 出 完整 的 图 像 ， 可 能 会 有 一 些 可 识别 的 模式 。 那 么 ， 让 我 们 再 次 优 
化 第 一 张 图 像 ， 并 以 全 分 辩 率 来 绘制 。 


Inception 模 型 以 大 约 100% 的 确信 度 将 结果 图 像 分 类 成 “ 敏 狐 ”， 但 在 人 眼看 来 ， 图 像 
只 是 一 些 抽象 的 图 案 。 


如 果 你 想 测试 另 一 个 特征 号 码 ， 要 注意 ， 号 码 必须 介 于 0 到 1000 之 间 ， 因 为 它 对 应 
了 最 终 输 出 层 的 一 个 有 效 类 别 号 。 


image = optimize_image(conv_id=None, feature=1, 
num_iterations=100, show_progress=True) 


Iteration: 0 

Predicted class-name: dishwasher (#667), score: 4.98% 
Gradient min: -0.006252, max: 0.004451, stepsize: 3734.48 
Loss: -0.837608 


Iteration: 1 

Predicted class-name: ballpoint (#907), score: 8.52% 
Gradient min: -0.007303, max: 0.006427, stepsize: 2152.89 
Loss: -0.416723 


Iteration: 2 

Predicted class-name: spider web (4600), score: 90.4496 
Gradient min: -0.007480, max: 0.012272, stepsize: 1343.66 
Loss: 2.77814 


Iteration: 3 

Predicted class-name: pot (#838), score: 3.0196 

Gradient min: -0.009853, max: 0.007638, stepsize: 1526.98 
Loss: 3.27751 


392 


Iteration: 4 


Predicted class-name: American egret (#426), score: 11.55% 
Gradient min: -0.008507, max: 0.006308, stepsize: 1787.96 
Loss: 5.95497 

Iteration: 5 

Predicted class-name: spider web (#600), score: 21.98% 
Gradient min: -0.010415, max: 0.009410, stepsize: 1722.27 
Loss: 5.07394 

Iteration: 6 

Predicted class-name: kit fox (#1), score: 29.21% 

Gradient min: -0.009298, max: 0.007885, stepsize: 2471.91 
Loss: 7.98241 

Iteration: 7 

Predicted class-name: brain coral (#649), score: 8.95% 
Gradient min: -0.004683, max: 0.004366, stepsize: 2876.78 
Loss: 2.61856 

Iteration: 8 

Predicted class-name: kit fox (#1), score: 30.05% 

Gradient min: -0.008918, max: 0.006374, stepsize: 2243.47 
Loss: 8.18703 

Iteration: 9 

Predicted class-name: kit fox (#1), score: 55.10% 

Gradient min: -0.041977, max: 0.025564, stepsize: 1270.96 
Loss: 9.4695 

Iteration: 10 

Predicted class-name: kit fox (#1), score: 45.79% 

Gradient min: -0.025474, max: 0.026726, stepsize: 858.88 
Loss: 8.49094 

Iteration: 11 

Predicted class-name: kit fox (#1), score: 71.39% 

Gradient min: -0.021939, max: 0.016643, stepsize: 1316.54 
Loss: 12.4999 

Iteration: 12 

Predicted class-name: kit fox (#1), score: 82.78% 

Gradient min: -0.011797, max: 0.017714, stepsize: 1763.08 
Loss: 11.1421 

Iteration: 13 

Predicted class-name: kit fox (#1), score: 67.38% 

Gradient min: -0.016686, max: 0.015832, stepsize: 1908.94 
Loss: 11.186 

Iteration: 14 

Predicted class-name: kit fox (#1), score: 57.64% 


Gradient min: 
Loss: 9.67373 


-0.017312, max: 


Iteration: 15 
Predicted class-name: kit fox 
Gradient min: -0.005773, max: 
Loss: 12.9428 


Iteration: 16 
Predicted class-name: kit fox 
Gradient min: -0.020765, max: 
Loss: 10.6559 


Iteration: 17 


Predicted class-name: kit fox 
Gradient min: -0.005492, max: 
Loss: 16.579 

Iteration: 18 

Predicted class-name: kit fox 


Gradient min: 
Loss: 11.7084 


-0.017253, max: 


Iteration: 19 
Predicted class-name: kit fox 
Gradient min: -0.007056, max: 
Loss: 17.8698 


Iteration: 20 

Predicted class-name: kit fox 
Gradient min: -0.008916, max: 
Loss: 17.922 


Iteration: 21 
Predicted class-name: kit fox 
Gradient min: -0.012104, max: 
Loss: 12.5718 


Iteration: 22 
Predicted class-name: kit fox 
Gradient min: -0.007660, max: 
Loss: 14.0164 


Iteration: 23 
Predicted class-name: kit fox 
Gradient min: -0.009233, max: 
Loss: 19.118 


Iteration: 24 
Predicted class-name: kit fox 
Gradient min: -0.013526, max: 
Loss: 23.2171 


0.014563, stepsize: 


(#1), score: 69.09% 
0.005870, stepsize: 


(#1), score: 82.98% 
0.017950, stepsize: 


(#1), score: 99.04% 
0.006126, stepsize: 


(#1), score: 86.78% 
0.028574, stepsize: 


(#1), score: 96.57% 
0.006660, stepsize: 


(#1), score: 99.04% 
0.008408, stepsize: 


(#1), score: 68.39% 
0.013627, stepsize: 


(#1), score: 98.38% 
0.007840, stepsize: 


(#1), score: 98.36% 
0.006748, stepsize: 


(#1), score: 99.44% 
0.015166, stepsize: 
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Iteration: 25 
Predicted class-name: kit fox 
Gradient min: -0.005306, max: 
Loss: 21.0666 


Iteration: 26 
Predicted class-name: kit fox 
Gradient min: -0.005931, max: 
Loss: 21.2772 


Iteration: 27 
Predicted class-name: kit fox 
Gradient min: -0.008425, max: 
Loss: 23.1276 


Iteration: 28 
Predicted class-name: kit fox 
Gradient min: -0.012720, max: 
Loss: 25.9384 


Iteration: 29 
Predicted class-name: kit fox 
Gradient min: -0.020819, max: 
Loss: 22.4687 


Iteration: 30 
Predicted class-name: kit fox 
Gradient min: -0.005569, max: 
Loss: 21.3727 


Iteration: 31 
Predicted class-name: kit fox 
Gradient min: -0.010902, max: 
Loss: 13.2659 


Iteration: 32 
Predicted class-name: kit fox 
Gradient min: -0.006695, max: 
Loss: 23.113 


Iteration: 33 
Predicted class-name: kit fox 
Gradient min: -0.011343, max: 
Loss: 20.4645 


Iteration: 34 
Predicted class-name: kit fox 
Gradient min: -0.005129, max: 
Loss: 22.9016 


Iteration: 35 
Predicted class-name: kit fox 
Gradient min: -0.004618, max: 


(#1), score: 99.83% 
0.006063, stepsize: 


(#1), score: 99.85% 
0.005094, stepsize: 


(#1), score: 97.91% 
0.010999, stepsize: 


(#1), score: 99.98% 
0.010505, stepsize: 


(#1), score: 99.90% 
0.023275, stepsize: 


(#1), score: 99.87% 
0.007158, stepsize: 


(#1), score: 97.25% 
0.007087, stepsize: 


(#1), score: 99.96% 
0.006514, stepsize: 


(#1), score: 99.89% 
0.011963, stepsize: 


(#1), score: 99.83% 
0.005226, stepsize: 


(#1), score: 99.96% 
0.005916, stepsize: 
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Loss: 19.6406 
Iteration: 36 
Predicted class-name: kit fox 
Gradient min: -0.005298, max: 
Loss: 26.6898 


Iteration: 37 
Predicted class-name: kit fox 
Gradient min: -0.009913, max: 
Loss: 21.2908 


Iteration: 38 


Predicted class-name: kit fox 
Gradient min: -0.005472, max: 
Loss: 28.4096 
Iteration: 39 
Predicted class-name: kit fox 


Gradient min: -0.006044, max: 


Loss: 32.005 

Iteration: 40 

Predicted class-name: kit fox 
Gradient min: -0.007782, max: 
Loss: 34.7635 

Iteration: 41 

Predicted class-name: kit fox 
Gradient min: -0.030789, max: 
Loss: 32.2997 

Iteration: 42 

Predicted class-name: kit fox 
Gradient min: -0.005752, max: 
Loss: 34.8329 

Iteration: 43 

Predicted class-name: kit fox 
Gradient min: -0.005747, max: 
Loss: 33.3857 

Iteration: 44 

Predicted class-name: kit fox 


Gradient min: 
Loss: 33.5334 


-0.005644, max: 


Iteration: 45 
Predicted class-name: kit fox 
Gradient min: -0.008353, max: 
Loss: 34.6049 


Iteration: 46 


(#1), score: 99.94% 
0.007882, stepsize: 


(#1), score: 99.77% 
0.010110, stepsize: 


(#1), score: 99.99% 
0.004434, stepsize: 


(#1), score: 99.99% 
0.007171, stepsize: 


(#1), score: 100.00% 
0.007306, stepsize: 


(#1), score: 99.94% 
0.017443, stepsize: 


(#1), score: 100.00% 
0.006784, stepsize: 


(#1), score: 99.98% 
0.005908, stepsize: 


(#1), score: 99.99% 
0.005296, stepsize: 


(#1), score: 100.00% 
0.008290, stepsize: 
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Predicted class-name: kit fox 
Gradient min: -0.007643, max: 
Loss: 36.0055 


Iteration: 47 


Predicted class-name: kit fox 
Gradient min: -0.008912, max: 
Loss: 31.0812 
Iteration: 48 
Predicted class-name: kit fox 


Gradient min: 
Loss: 36.9466 


-0.018941, max: 


Iteration: 49 
Predicted class-name: kit fox 
Gradient min: -0.007313, max: 
Loss: 39.6561 


Iteration: 50 


Predicted class-name: kit fox 
Gradient min: -0.005102, max: 
Loss: 34.06 

Iteration: 51 

Predicted class-name: kit fox 


Gradient min: 
Loss: 26.9699 


-0.009598, max: 


Iteration: 52 


Predicted class-name: kit fox 
Gradient min: -0.006587, max: 
Loss: 37.3345 
Iteration: 53 
Predicted class-name: kit fox 


Gradient min: 
Loss: 39.8643 


-0.006564, max: 


Iteration: 54 
Predicted class-name: kit fox 
Gradient min: -0.020868, max: 
Loss: 37.7343 


Iteration: 55 
Predicted class-name: kit fox 
Gradient min: -0.005574, max: 
Loss: 41.346 


Iteration: 56 
Predicted class-name: kit fox 
Gradient min: -0.009256, max: 
Loss: 35.9501 


(#1), score: 99.99% 
0.006041, stepsize: 


(#1), score: 99.99% 
0.009060, stepsize: 


(#1), score: 99.99% 
0.019518, stepsize: 


(#1), score: 100.00% 
0.010175, stepsize: 


(#1), score: 99.99% 
0.005128, stepsize: 


(#1), score: 100.00% 
0.007205, stepsize: 


(#1), score: 100.00% 
0.006691, stepsize: 


(#1), score: 100.00% 
0.006621, stepsize: 


(#1), score: 100.00% 
0.016884, stepsize: 


(#1), score: 100.00% 
0.005976, stepsize: 


(#1), score: 100.00% 
0.010253, stepsize: 


2002. 


1462. 


1859. 


1605. 


2222. 


1756. 


1967. 


2305. 


1375. 


1908 


1768. 


25 


12 


71 


92 


82 


78 


08 


14 


65 


“25 


63 


Iteration: 57 
Predicted class-name: kit fox 
Gradient min: -0.010851, max: 
Loss: 42.5105 


Iteration: 58 

Predicted class-name: kit fox 
Gradient min: -0.005229, max: 
Loss: 43.219 


Iteration: 59 
Predicted class-name: kit fox 
Gradient min: -0.006745, max: 
Loss: 38.7929 


Iteration: 60 
Predicted class-name: kit fox 
Gradient min: -0.005743, max: 
Loss: 45.1963 


Iteration: 61 
Predicted class-name: kit fox 
Gradient min: -0.007454, max: 
Loss: 39.2328 


Iteration: 62 


Predicted class-name: kit fox 
Gradient min: -0.005872, max: 
Loss: 42.8966 
Iteration: 63 
Predicted class-name: kit fox 


Gradient min: 
Loss: 43.5881 


-0.006593, max: 


Iteration: 64 
Predicted class-name: kit fox 
Gradient min: -0.006010, max: 
Loss: 49.4166 


Iteration: 65 


Predicted class-name: kit fox 
Gradient min: -0.011517, max: 
Loss: 41.3484 
Iteration: 66 
Predicted class-name: kit fox 
Gradient min: -0.008072, max: 
Loss: 45.9205 
Iteration: 67 
Predicted class-name: kit fox 


(41), score: 100.0096 
0.017633, stepsize: 


(41), score: 100.0096 
0.006164, stepsize: 


(#1), score: 100.0096 
0.006746, stepsize: 


(#1), score: 100.0096 
0.004990, stepsize: 


(#1), score: 100.0096 
0.006493, stepsize: 


(#1), score: 100.0096 
0.006283, stepsize: 


(#1), score: 100.0096 
0.007255, stepsize: 


(41), score: 100.0096 
0.005091, stepsize: 


(#1), score: 100.0096 
0.009566, stepsize: 


(41), score: 100.0096 
0.008848, stepsize: 


(41), score: 100.0096 
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Gradient min: 
Loss: 42.3279 


-0.008305, max: 


Iteration: 68 


Predicted class-name: kit fox 
Gradient min: -0.006149, max: 
Loss: 46.414 
Iteration: 69 
Predicted class-name: kit fox 


Gradient min: 
Loss: 42.8873 


-0.006578, max: 


Iteration: 70 
Predicted class-name: kit fox 
Gradient min: -0.005391, max: 
Loss: 49.2656 


Iteration: 71 
Predicted class-name: kit fox 
Gradient min: -0.008280, max: 
Loss: 49.4512 


Iteration: 72 


Predicted class-name: kit fox 
Gradient min: -0.009657, max: 
Loss: 52.4693 
Iteration: 73 
Predicted class-name: kit fox 


Gradient min: 
Loss: 47.8848 


-0.006796, max: 


Iteration: 74 
Predicted class-name: kit fox 
Gradient min: -0.007820, max: 
Loss: 53.1304 


Iteration: 75 

Predicted class-name: kit fox 
Gradient min: -0.007080, max: 
Loss: 52.802 


Iteration: 76 
Predicted class-name: kit fox 
Gradient min: -0.006778, max: 
Loss: 51.9139 


Iteration: 77 

Predicted class-name: kit fox 
Gradient min: -0.007497, max: 
Loss: 49.05 


0.006268, stepsize: 


(#1), score: 100.00% 
0.009358, stepsize: 


(#1), score: 100.00% 
0.006697, stepsize: 


(#1), score: 100.00% 
0.006146, stepsize: 


(#1), score: 100.00% 
0.008504, stepsize: 


(#1), score: 100.00% 
0.011234, stepsize: 


(#1), score: 100.00% 
0.008983, stepsize: 


(#1), score: 100.00% 
0.007669, stepsize: 


(#1), score: 100.00% 
0.009358, stepsize: 


(#1), score: 100.00% 
0.011433, stepsize: 


(#1), score: 100.00% 
0.007986, stepsize: 
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Iteration: 78 


Predicted class-name: kit fox 
Gradient min: -0.005112, max: 
Loss: 58.7734 
Iteration: 79 
Predicted class-name: kit fox 


Gradient min: 
Loss: 60.3876 


-0.008460, max: 


Iteration: 80 
Predicted class-name: kit fox 
Gradient min: -0.006530, max: 
Loss: 60.4282 


Iteration: 81 
Predicted class-name: kit fox 
Gradient min: -0.009223, max: 
Loss: 59.8338 


Iteration: 82 
Predicted class-name: kit fox 
Gradient min: -0.006340, max: 
Loss: 60.1702 


Iteration: 83 
Predicted class-name: kit fox 
Gradient min: -0.008974, max: 
Loss: 59.8085 


Iteration: 84 
Predicted class-name: kit fox 
Gradient min: -0.008100, max: 
Loss: 63.3426 


Iteration: 85 
Predicted class-name: kit fox 
Gradient min: -0.006354, max: 
Loss: 62.9884 


Iteration: 86 
Predicted class-name: kit fox 
Gradient min: -0.007080, max: 
Loss: 66.6128 


Iteration: 87 
Predicted class-name: kit fox 
Gradient min: -0.015349, max: 
Loss: 63.2206 


Iteration: 88 
Predicted class-name: kit fox 
Gradient min: -0.008576, max: 


(#1), score: 100.00% 
0.006590, stepsize: 


(#1), score: 100.00% 
0.008341, stepsize: 


(#1), score: 100.00% 
0.006501, stepsize: 


(#1), score: 100.00% 
0.006812, stepsize: 


(#1), score: 100.00% 
0.006535, stepsize: 


(#1), score: 100.00% 
0.008040, stepsize: 


(#1), score: 100.00% 
0.005810, stepsize: 


(#1), score: 100.00% 
0.008465, stepsize: 


(#1), score: 100.00% 
0.006697, stepsize: 


(#1), score: 100.00% 
0.009788, stepsize: 


(#1), score: 100.00% 
0.007250, stepsize: 
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Loss: 68.5237 


Iteration: 89 


Predicted class-name: kit fox 
Gradient min: -0.005157, max: 
Loss: 71.2678 
Iteration: 90 
Predicted class-name: kit fox 


Gradient min: 
Loss: 62.0469 


-0.007810, max: 


Iteration: 91 

Predicted class-name: kit fox 
Gradient min: -0.010371, max: 
Loss: 70.518 


Iteration: 92 
Predicted class-name: kit fox 
Gradient min: -0.009110, max: 
Loss: 67.8497 


Iteration: 93 
Predicted class-name: kit fox 
Gradient min: -0.005365, max: 
Loss: 69.9785 


Iteration: 94 
Predicted class-name: kit fox 
Gradient min: -0.010603, max: 
Loss: 69.6375 


Iteration: 95 


Predicted class-name: kit fox 
Gradient min: -0.004267, max: 
Loss: 76.1746 
Iteration: 96 
Predicted class-name: kit fox 
Gradient min: -0.011737, max: 
Loss: 58.1862 
Iteration: 97 
Predicted class-name: kit fox 


Gradient min: 
Loss: 73.5772 


-0.005620, max: 


Iteration: 98 
Predicted class-name: kit fox 
Gradient min: -0.007732, max: 
Loss: 67.5603 


Iteration: 99 


(#1), score: 100.00% 
0.005224, stepsize: 


(#1), score: 100.00% 
0.007995, stepsize: 


(#1), score: 100.00% 
0.009543, stepsize: 


(#1), score: 100.00% 
0.006689, stepsize: 


(#1), score: 100.00% 
0.006440, stepsize: 


(#1), score: 100.00% 
0.011318, stepsize: 


(#1), score: 100.00% 
0.005465, stepsize: 


(#1), score: 100.00% 
0.010223, stepsize: 


(#1), score: 100.00% 
0.005410, stepsize: 


(#1), score: 100.00% 
0.010692, stepsize: 


1869 


1401. 


115593 


1855. 


1969. 


1475 


2023. 


1207. 


1992. 


1286 


755 


19 


59 


04 


30 


.43 


68 


37 


51 


.44 


Predicted class-name: kit fox (#1), score: 100.00% 
Gradient min: -0.005850, max: 0.006159, stepsize: 1863.65 
Loss: 75.6356 


plot image(image-image) 





X i] TensorFlow2 t 


在 上 面 使 用 Inception 模 型 的 函数 中 已 经 关闭 了 TensorFlow 会 话 。 这 么 做 是 为 了 节省 
内 存 ， 因 此 当 计 算 图 中 添加 了 很 多 梯度 函数 时 ， 电 脑 不 会 奔 溃 。 


ÈK 


总 结 


~ 


这 篇 教程 说 明了 如 何 优化 输入 图 像 ， 使 得 神经 网 络 内 的 特征 最 大 化 。 由 于 神经 网 络 
内 给 定 特 征 (或 神经 元 ) 对 特定 的 图 像 反应 最 强烈 ， 这 让 我 们 可 以 对 其 "喜欢 看 到 的 
东西 "进行 可 视 化 分 析 。 


对 神经 网 络 的 较 低层 ， 图 像 包 含 了 简单 的 图 案 ， 上 比如 不 同类 型 的 波浪 线 。 随 着 网 络 
越 来 越 深 ， 图 像 模式 越 来 越 复杂 。 我 们 可 能 会 硕 望 深层 网 络 的 模式 是 可 识别 的 ， 比 
如 猴子 、 狐 狸 、 汽 车 等 等 ， 但 实际 上 深层 网 络 的 图 像 模式 更 加 复杂 和 抽象 。 


这 是 为 什么 ? 回想 在 教程 #11 中 ，lnception 模 型 很 容易 就 被 一 些 对 抗 噪声 糊弄 ， 而 
将 任何 输入 图 分 类 为 另外 的 目标 类 别 。 因 此 ， 不 难 想象 Inception 模 型 可 以 识别 这 些 
在 人 眼看 来 并 不 清楚 的 抽象 图 像 模 式 。 可 能 存在 无 穷 多 的 能 够 最 大 化 神经 网 络 内 部 
特征 的 图 像 ， 并 且 人 类 只 能 识别 出 其 中 的 一 小 部 分 。 这 也 许 是 优化 过 程 只 找到 抽象 
图 像 模 式 的 原因 。 
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其 他 方法 
研究 文献 中 还 有 许多 指导 优化 过 程 的 建议 ， 从 而 找到 人 类 更 易 识别 的 图 像 模式 。 


这 篇 文章 提出 了 一 种 结合 局 发 式 来 引导 图 像 模式 的 优化 过 程 。 论 文中 展示 了 一 些 类 
BI AQHA RR > Hote KALE N EN ERA AIRS SP Sa ARG Re ARE 
有 方法 的 实现 (精确 的 行 数 以 后 可 能 会 改变 ) 。 这 个 方法 需要 局 发 式 的 组 合并 对 参 
数 进行 微调 ， 以 生成 这 些 图 像 。 但 论文 中 参数 的 选择 并 不 明确 。 尽 管 尝试 了 一 番 ， 
我 还 是 无 法 重 现 他 们 的 结果 。 也 许 我 误解 了 这 篇 论文 ， 或 许 启 发 式 对 他 们 网 络 架 构 

(一 种 AlexNet 的 变 体 ) 的 微调 是 好 的 ， 然 而 这 篇 教程 中 用 的 是 更 先进 的 Inception 
模型 。 


这 篇 文章 提出 了 另 一 种 生成 人 眼 可 识别 的 图 像 的 方法 。 然 而 ， 实 际 上 这 个 方法 作 商 
了 ， 因 为 它 遍 历 训练 集中 的 所 有 图 像 (比如 ImageNet) ， 找 到 能 最 大 激活 神经 网 络 
中 给 定 特 征 的 图 像 。 然 后 对 相似 的 图 像 做 聚 类 和 平均 。 将 这 个 作为 优化 程序 的 初始 
图 像 。 因 此 ， 当 使 用 从 申 实 照片 构造 的 图 像 时 ， 这 个 方法 能 得 到 更 好 的 结果 也 不 足 
为 怪 了 。 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 尝试 为 网 络 中 较 低 层 的 特征 运行 多 次 优化 。 得 到 的 图 像 总 是 相同 吗 ? 

e 试 着 用 更 少 或 更 多 的 优化 迭代 。 这 对 图 像 质 量 有 何 影响 ? 

o 试 着 改变 卷 积 特征 的 损失 函数 。 这 可 以 用 不 同 的 方法 来 做 。 它 将 如 何 影响 图 样 
RA? AIA ? 

e. 你 认为 优化 器 除了 增 大 我 们 想 要 最 大 化 的 那个 特征 之 外 ， 会 放大 其 他 特征 吗 ? 
你 要 怎么 度量 这 个 ?你 确定 优化 器 一 次 只 会 最 大 化 一 个 特征 吗 ? 

e 试 着 同时 最 大 化 多 个 特征 。 

e 在 MNIST 数 据 集 上 训练 一 个 小 一 点 的 网 络 ， 然 后 试 着 对 特征 和 层次 做 可 视 化 。 
会 更 容易 在 图 像 中 看 到 图 案 吗 ? 

。 试 着 实现 上 述 论文 中 的 方法 。 

e 试 着 用 你 自己 的 方法 来 改善 优化 的 图 像 。 

e 向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 


modify merge, publish, distribute, sublicense, and/or sell copies of the Software， 
and to permit persons to whom the Software is furnished to do so, Subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #14 


DeepDream 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist / Github 


介绍 
在 上 一 篇 教程 中 ， 我 们 看 到 了 如 何 用 神经 网 络 的 梯度 来 生成 图 像 。 教 程 #11 和 #12 展 
示 了 如 何 用 梯度 来 生成 对 抗 澡 声 。 教 程 #13 展 示 了 怎么 用 梯度 来 生成 神经 网 络 内 部 
特征 所 响应 的 图 像 。 


本 文 会 使 用 一 个 与 之 前 类 似 的 方法 。 现 在 我 们 会 用 神经 网 络 的 梯度 来 放大 输入 图 像 
中 的 图 案 (patterns) 。 这 个 通常 称 为 DeepDream 算 法 ， 但 这 个 技术 实际 上 有 许多 
不 同 的 变 体 。 


本 文 基于 之 前 的 教程 。 你 需要 大 概 地 熟悉 神经 网 络 〈 详 见 教程 #O1 和 #0O2) oe 


流程 图 


下 面 的 流程 图 粗略 展示 了 DeepDream# :* 的 想法 。 我 们 使 用 的 是 Inception 模 型 » 

它 的 层次 要 比 这 边 显 示 的 更 多 。 我 们 使 用 TensorFlow 自 动 导 出 网 络 中 一 个 给 定 层 相 

ee eee 
图 案 并 且 我 们 对 所 得 到 的 图 像 满意 为 止 。 


这 里 的 原理 就 是 ， 神 经 网 络 在 图 像 中 看 到 一 些 图 委 的 痕迹 ， 然 后 我 们 只 是 用 梯度 把 
它 放 大 了 。 


这 里 没有 显示 DeepDream 算 法 的 一 些 细节 ， 例 如 梯度 被 平滑 了 ， 后 面 会 讨论 它 的 一 
些 优点 。 梯 度 也 是 分 块 计 算 的 ， 因 此 它 可 以 在 高 分 辩 率 的 图 像 上 工作 ， 而 不 会 耗 尽 
计算 机 内 存 。 


from IPython.display import Image, display 
Image( 'images/14_deepdream_flowchart.png') 
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Use gradient to update image 


递归 优化 


Inception 模 型 是 在 相当 低 分 辩 率 的 图 像 上 进行 训练 的 ， 大 概 200-300 像 素 。 所 以 ， 
当 我 们 使 用 更 大 分 辩 率 的 图 像 时 ，DeepDream 算 法 会 在 图 像 中 创建 许多 小 的 图 案 。 


一 个 解决 方案 是 将 输入 图 像 缩小 到 200-300 像 素 。 但 是 这 么 低 的 分 状 举 (的 结果 ) 
AR ANG to AEA AY o 


另 一 个 解决 方案 是 多 次 缩小 原始 图 像 ， 在 每 个 较 小 的 图 像 上 运行 DeepDream 算 法 。 
这 样 会 在 图 像 中 创建 更 大 的 图 案 ， 然 后 以 更 高 的 分 辨 率 进行 改善 。 

这 个 流程 图 粗略 显示 了 这 个 想法 。 莫 法 递归 地 实现 并 且 支 持 任何 数量 的 缩小 级 别 。 
算法 有 些 细 节 并 未 在 这 里 展示 ， 比 如 ， 图 像 在 缩小 之 前 会 做 一 些 模糊 处 理 ， 并 且 原 
始 图 像 只 是 与 DeepDream 图 像 混合 在 一 起 ， 来 增加 一 些 原始 的 细节 。 


Image('images/14 deepdream recursive flowchart.png') 
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Final Result 
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%matplotlib inline 

import matplotlib.pyplot as plt 
import tensorflow as tf 

import numpy as np 

import random 

import math 


# Image manipulation. 
import PIL.Image 
from scipy.ndimage.filters import gaussian_filter 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


ARO 


Inception 模型 


前 面 的 一 些 教程 都 使 用 了 Inception v3 模 型 。 本 文 将 会 使 用 Inception 模 型 的 另 一 个 
变 体 。 由 于 Google 开 发 者 并 没有 很 好 的 为 其 撰写 文档 ( 跟 通 常 一 样 ) ， 不 太 清 楚 模 
型 是 哪个 版 本 。 我 们 在 这 里 用 "lnception 5h" 来 指 代 它 ， 因 为 zip 包 的 文件 名 就 是 这 
样 ， 尽 管 看 起 来 这 是 Inception 模 型 的 一 个 早期 的 、 更 简单 的 版 本 。 

这 里 使 用 Inception 5h 模 型 是 因为 它 更 容易 使 用 : 它 接受 任何 尺寸 的 输入 图 像 ， 然 
后 创建 比 Inception v3 模型 (LAB #13) 更 漂亮 的 图 像 。 


import inception5h 


从 网 上 下 载 Inception 5h 模 型 。 这 是 你 保存 数据 文件 的 默认 文件 夹 。 如 果 文 件 夹 不 
存在 就 自动 创建 。 


# inception.data dir = 'inception/5h/' 


如 果 文 件 夹 中 不 存在 Inception 模 型 ， 就 自动 下 载 。 它 有 50MB ° 


inception5h.maybe_download() 


Downloading Inception 5h Model ... 
Data has apparently already been downloaded and unpacked. 


载 入 模型 ， 以 便 使 用 。 


model = inception5h.Inceptionsh() 


Inception 5h 模 型 有 许多 层 可 用 来 做 DeepDreaming。 我 们 列 出 了 12 个 最 常用 的 层 ， 
以 供 参 考 。 


len(model.layer_tensors) 
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操作 图 像 的 帮助 函数 


这 个 函数 载 入 一 张 图 像 ， 并 返回 一 个 浮 点 型 numpy 数 组 。 


def load image(filename): 
image - PIL.Image.open(filename) 


return np.float32(image) 


将 图 像 保 存 成 jpeg 文 件 。 图 像 是 保存 着 0-255 像 素 的 numpy 数 组 。 


def save_image(image, filename): 
# Ensure the pixel-values are between 0 and 255. 
image = np.clip(image, 0.0, 255.0) 


# Convert to bytes. 
image = image.astype(np.uint8) 


# Write the image-file in jpeg-format. 
with open(filename, 'wb') as file: 
PIL.Image.fromarray(image).save(file, 'jpeg') 
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好 。 


def plot_image(image): 
# Assume the pixel-values are scaled between 0 and 255. 


if False: 
# Convert the pixel-values to the range between 0.0 and 
dha@ 
image = np.clip(image/255.0, 0.0, 1.0) 
# Plot using matplotlib. 
plt.imshow(image, interpolation='lanczos' ) 
plt.show( ) 
else: 


# Ensure the pixel-values are between 0 and 255. 
image = np.clip(image, 0.0, 255.0) 


# Convert pixels to bytes. 
image = image.astype(np.uint8) 


# Convert to a PIL-image and display it. 
display(PIL.Image.fromarray(image)) 


归 一 化 图 像 ， 则 像素 值 在 0.0 到 1.0 之 间 。 这 个 在 绘制 梯度 时 很 有 用 。 


def normalize_image(x): 
# Get the min and max values for all pixels in the input. 
x_min = x.min() 
x max = x.max() 


# Normalize so all values are between 0.0 and 1.0 
x norm = (x - x min) / (x max - x min) 


return x norm 


对 梯度 做 归 一 化 之 后 ， 用 这 个 函数 绘制 。 


def plot_gradient (gradient): 
# Normalize the gradient so it is between 0.0 and 1.0 
gradient normalized = normalize image(gradient) 


# Plot the normalized gradient. 
plt.imshow(gradient normalized, interpolation='bilinear') 
plt.show() 


KA BAAR ARK © BARRE AR EI HE 49 (100 > 
200)， 它 也 可 以 接受 一 个 缩放 因子 ， 比 如 ， 参 数 是 0.5 时 ,图 像 每 个 维度 缩小 一 半 。 


这 个 函数 用 PIL 来 实现 ， 代 码 有 点 长 ， 因 为 我 们 用 numpy 数 组 来 处 理 图 像 ， 其 中 像 
素 值 是 浮 点 值 。PIL 不 支持 这 个 ， 因 此 需要 将 图 像 转换 成 8 位 字 节 ， 来 确保 像素 值 在 
合适 的 范围 内 。 然 后 ， 图 像 被 调整 大 小 并 转换 回 浮 点 值 。 


def resize image(image, size=None, factor=None): 
# If a rescaling-factor is provided then use it. 
if factor is not None: 
# Scale the numpy array's shape for height and width. 
size = np.array(image.shape[0:2]) * factor 


# The size is floating-point because it was scaled. 
# PIL requires the size to be integers. 
size = size.astype(int) 
else: 
# Ensure the size has length 2. 
size = size[0:2] 


# The height and width is reversed in numpy vs. PIL. 
size = tuple(reversed(size) ) 


# Ensure the pixel-values are between 0 and 255. 
img = np.clip(image, 0.0, 255.0) 


# Convert the pixels to 8-bit bytes. 
img = img.astype(np.uint8) 


# Create PIL-object from numpy array. 
img = PIL.Image.fromarray(img) 


# Resize the image. 
img_resized = img.resize(size, PIL.Image.LANCZOS) 


# Convert 8-bit pixel values back to floating-point. 
img_resized = np.float32(img_resized) 


return img_resized 


DeepDream 算法 


梯度 


下 面 的 帮助 防 数 计算 了 在 DeepDream 中 使 用 的 输入 图 像 的 梯度 。Inception 5h 模 型 
可 以 接受 任意 尺寸 的 图 人像， 但 太 大 的 图 像 可 能 会 占用 千 光 字 节 的 内 存 。 为 了 使 内 存 
占用 最 低 ， 我 们 将 输入 图 像 分 割 成 小 的 图 块 ， 然 后 计算 每 小 块 的 梯度 。 


然而 ， 这 可 能 会 在 DeepDream 算 法 最 终生 成 的 图 像 中 产生 肉眼 可 见 的 线条 。 因 此 我 
们 随机 地 挑选 小 块 ， 这 样 它们 的 位 置 就 是 不 同 的 。 这 使 得 在 最 终 的 DeepDream 图 像 
里 ， 小 块 之 间 的 缝隙 不 可 见 。 


这 个 帮助 函数 用 来 确定 合适 的 图 块 尺寸 。 比 如 ， 期 望 的 图 块 尺寸 为 400x400 像 素 ， 
但 实际 大 小 取决 于 图 像 尺寸 。 


def get_tile_size(num_pixels, tile_size=400): 


nn 
num pixels is the number of pixels in a dimension of the ima 


ge. 
tile size is the desired tile-size. 


# How many times can we repeat a tile of the desired size. 
num tiles - int(round(num pixels / tile size)) 


# Ensure that there is at least 1 tile. 
num tiles = max(1, num tiles) 


# The actual tile-size. 
actual tile size - math.ceil(num pixels / num tiles) 


return actual tile size 


这 个 帮助 函数 计算 了 输入 图 像 的 梯度 。 图 像 被 分 割 成 小 块 ， 然 后 分 别 计算 各 个 图 块 
的 梯度 。 图 块 是 随机 选择 的 ， 避 免 在 最 终 的 DeepDream 图 像 内 产生 可 见 的 缝 际 。 


def tiled gradient(gradient, image, tile size-400): 
# Allocate an array for the gradient of the entire image. 
grad - np.zeros like(image) 


# Number of pixels for the x- and y-axes. 

x max, y max, _ = image.shape 

# Tile-size for the x-axis. 

x_tile_size = get_tile_size(num_pixels=x_max, tile_size=tile 
_size) 

# 1/4 of the tile-size. 

x_tile_size4 = x_tile_size // 4 


# Tile-size for the y-axis. 

y_tile_size = get_tile_size(num_pixels=y_max, tile_size=tile 
_size) 

# 1/4 of the tile-size 

y_tile_size4 = y_tile_size // 4 


# Random start-position for the tiles on the x-axis. 
# The random value is between -3/4 and -1/4 of the tile-size. 


# This is so the border-tiles are at least 1/4 of the tile-s 
ize, 

# otherwise the tiles may be too small which creates noisy g 
radients. 

x_start = random.randint(-3*x_tile_size4, -x_tile_size4) 


while x_start < X max: 


DeepDream 


# End-position for the current tile. 
X end = x_start + x_tile_size 


# Ensure the tile's start- and end-positions are valid. 
x_start_lim = max(x_start, 9) 
x_end_lim = min(x_end, x_max) 


# Random start-position for the tiles on the y-axis. 
# The random value is between -3/4 and -1/4 of the tile- 


size. 
y_start = random.randint(-3*y_tile_size4, -y_tile_size4) 
while y_start < y_max: 

# End-position for the current tile. 

y_end = y_start + y_tile_size 

# Ensure the tile's start- and end-positions are val 
abel 

y start lim = max(y start, 9) 

y end lim - min(y end, y max) 

# Get the image-tile. 

img tile - image[x start lim:x end lim, 

y start lim:y end lim, :] 

# Create a feed-dict with the image-tile. 

feed dict - model.create feed dict(image-img tile) 

# Use TensorFlow to calculate the gradient-value. 

g = session.run(gradient, feed dict-feed dict) 

# Normalize the gradient for the tile. This is 

# necessary because the tiles may have very different 

# values. Normalizing gives a more coherent gradient. 

g /- (np.std(g) * 1e-8) 

# Store the tile's gradient at the appropriate locat 
ion. 


grad[x start lim:x end lim, 
y start lim:y end lim, :] =g 


# Advance the start-position for the y-axis. 
y start - y end 


4 Advance the start-position for the x-axis. 
X start - x end 


return grad 
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DeepDream 


优化 图 像 


这 个 函数 是 DeepDream 算 法 的 主要 优化 循环 。 它 根据 输入 图 像 计 算 Inception 模 型 
中 给 定 层 的 梯度 。 然 后 将 梯度 添加 到 输入 图 像 ， 从 而 增加 层 张 量 (layer-tenson) 的 平 
均值 。 多 次 重复 这 个 过 程 ， 并 放大 Inception 模 型 在 输入 图 像 中 看 到 的 任何 图 案 。 


def optimize image(layer tensor, image, 
num iterations-10, step size-3.0, tile size-4 
00, 
show gradient-False): 
Use gradient ascent to optimize an image so it maximizes the 
mean value of the given layer tensor. 


Parameters: 

layer tensor: Reference to a tensor that will be maximized. 
image: Input image used as the starting point. 

num iterations: Number of optimization iterations to perform 


step size: Scale for each step of the gradient ascent. 
tile size: Size of the tiles when calculating the gradient. 
show gradient: Plot the gradient in each iteration. 


# Copy the image so we don't overwrite the original image. 
img - image.copy() 


print("Image before:") 
plot image(img) 


print("Processing image: ", end="") 


# Use TensorFlow to get the mathematical function for the 

# gradient of the given layer-tensor with regard to the 

# input image. This may cause TensorFlow to add the same 

# math-expressions to the graph each time this function is c 
alled. 

# It may use a lot of RAM and could be moved outside the fun 
Eo. 

gradient - model.get gradient(layer tensor) 


for i in range(num iterations): 
# Calculate the value of the gradient. 
# This tells us how to change the image so as to 
4 maximize the mean of the given layer-tensor. 
grad - tiled gradient(gradient-gradient, image-img) 


# Blur the gradient with different amounts and add 

# them together. The blur amount is also increased 

# during the optimization. This was found to give 

# nice, smooth images. You can try and change the formul 
as. 
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# The blur-amount is called sigma (0=no blur, 1=low blur 
# We could call gaussian_filter(grad, sigma=(sigma, sigm 


# which would not blur the colour-channel. This tends to 
# give psychadelic / pastel colours in the resulting ima 


# When the colour-channel is also blurred the colours of 


# input image are mostly retained in the output image. 
sigma = (i * 4.0) / num_iterations + 0.5 

grad smoothi = gaussian_filter(grad, sigma=sigma) 
grad_smooth2 gaussian filter(grad, sigma-sigma*?) 
grad smooth3 gaussian filter(grad, sigma=sigma*0.5) 
grad = (grad smoothi + grad smooth2 + grad smooth3) 


Hon n 


4 Scale the step-size according to the gradient-values. 
# This may not be necessary because the tiled-gradient 
4 is already normalized. 

step size scaled = step size / (np.std(grad) + 1e-8) 


4 Update the image by following the gradient. 
img += grad * step size scaled 


if show gradient: 
4 Print statistics for the gradient. 
msg = "Gradient min: {0:>9.6f}, max: {1:>9.6f}, step 
sizes (2:29.2T]" 
print(msg.format(grad.min(), grad.max(), step size s 
caled)) 


# Plot the gradient. 
plot gradient(grad) 
else: 
# Otherwise show a little progress-indicator. 
print(". ", end="") 


print() 
print("Image after:") 
plot_image(img) 


return img 


图 像 递归 优化 


Inception 模 型 在 相当 小 的 图 像 上 进行 训练 。 不 清楚 图 像 的 确切 大 小 ， 但 可 能 每 个 维 
度 200-300 像 素 。 如 果 我 们 使 用 较 大 的 图 像 ， 比 如 1920x1080 像 素 ， 那么 上 面 
的 optimize image() 哆 数 会 在 图 像 上 添加 很 多 小 的 图 案 。 


DeepDream 


这 个 帮助 函数 将 输入 图 像 多 次 缩放 ， 然 后 用 每 个 缩放 图 像 来 执行 上 面 


的 opt 
HERR 


def 
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recursive optimize(layer tensor, image, 
num repeats-4, rescale_factor=0.7, blend= 


num iterations-10, step size-3.0, 

tile size-400): 
Recursively blur and downscale the input image. 
Each downscaled image is run through the optimize image() 
function to amplify the patterns that the Inception model se 


Parameters: 

image: Input image used as the starting point. 

rescale factor: Downscaling factor for the image. 

num repeats: Number of times to downscale the image. 

blend: Factor for blending the original and processed images 


Parameters passed to optimize image(): 
layer tensor: Reference to a tensor that will be maximized. 
num iterations: Number of optimization iterations to perform 


step size: Scale for each step of the gradient ascent. 
tile size: Size of the tiles when calculating the gradient. 


# Do a recursive step? 
if num repeats»0: 
# Blur the input image to prevent artifacts when downsca 


Ling: 


# The blur amount is controlled by sigma. Note that the 
# colour-channel is not blurred as it would make the ima 


ge gray. 


.0)) 


sigma = 0.5 
img blur = gaussian filter(image, sigma-(sigma, sigma, 0 


4 Downscale the image. 
img downscaled - resize image(image-img blur, 
factor-rescale factor) 


# Recursive call to this function. 
# Subtract one from num repeats and use the downscaled i 


mage. 


img result - recursive optimize(layer tensor-layer tenso 


image-img downscaled, 
num repeats-num repeats-1 
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rescale_factor=rescale_f 


blend=blend, 
num_iterations=num_itera 


step_size=step_size, 
tile_size=tile_size) 


# Upscale the resulting image back to its original size. 
img_upscaled = resize_image(image=img_result, size=image 
. shape) 


# Blend the original and processed images. 
image = blend * image + (1.0 - blend) * img_upscaled 


print("Recursive level:", num_repeats) 

# Process the image using the DeepDream algorithm. 

img_result = optimize_image(layer_tensor=layer_tensor, 
image=image, 
num_iterations=num_iterations, 
step_size=step_size, 
tile_size=tile_size) 


return img result 
Bm "—————————————————— MÀ ([ 
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我 们 需要 一 个 TensorFlow 会 话 来 运行 图 。 这 是 一 个 交互 式 的 会 话 ， 因 此 我 们 可 以 继 
续 往 计算 图 中 添加 梯度 方程 。 


session = tf.InteractiveSession(graph=model.graph) 


Hulk 


在 第 一 个 例子 中 ， 我 们 有 一 张 绿 巨人 的 图 像 。 注 意 看 看 DeepDream 图 像 是 如 何 保 留 
绝 大 部 分 原始 图 像 闫 色 的 。 这 是 由 于 梯度 在 其 颜色 通道 中 被 平滑 处 理 了 ， 因 此 变 得 
有 点 像 灰 阶 的 ， 主 要 改变 图 像 的 形状 ， 而 不 改变 其 颜色 。 


image = load image(filename-'images/hulk.jpg') 
plot_image(image) 





首先 ， 我 们 需要 Inception 模 型 中 的 张 量 的 引用 ， 它 将 在 DeepDream 优 化 算法 中 被 
最 大 化 。 在 这 个 例子 中 ， 我 们 选择 Inception 模 型 的 第 3 层 〈 层 索引 2) 。 它 有 192 个 
通道 ， 我 们 将 尝试 最 大 化 这 些 通道 的 平均 值 。 


layer_tensor = model.layer_tensors[2] 
layer_tensor 


«tf.Tensor 'conv2d2:0' shape=(?, ?, ?, 192) dtype=float32> 


现在 运行 DeepDream 优 化 算法 ， 总 共 10 次 迭代 ， 步 长 为 6.0， 这 是 下 面 北 归 优 化 的 
两 倍 。 每 次 迭代 我 们 都 展示 它 的 梯度 ， 你 可 以 看 到 图 像 方块 之 间 的 痕迹 。 


img_result = optimize_image(layer_tensor, image, 
num_iterations=10, step_size=6.0, tile_size=4 
00, 


show_gradient=True) 


Image before: 





Processing image: Gradient min: -26.993517, max: 25.577057, step 
size: 3.35 
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Gradient min: -15.383774, max: 12.962121, stepsize: 5.97 


DeepDream 


200 
300 
400 


500 





Gradient min: -5.993865, max: 6.191866, stepsize: 10.42 
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Gradient min: -3.638639, max: 3.307561, stepsize: 15.68 
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DeepDream 
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Gradient min: -2.407669, max: 2.166253, stepsize: 22,57 
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Gradient min: -1.716694, max: 1.467488, stepsize: 29.86 
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DeepDream 


200 
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Gradient min: -1.153857, max: 1.025310, stepsize: 38.37 
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Gradient min: -1.026255, max: 0.869002, stepsize: 48.34 
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Gradient min: -0.634610, max: 0.765562, stepsize: 63.08 
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0 200 400 600 800 


Gradient min: -0.585900, max: 0.485299, stepsize: 83.16 
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Image after: 





如 果 你 愿意 的 话 ， 可 以 保存 DeepDream 图 像 。 


4 save image(img result, filename='deepdream_hulk.jpg' ) 


现在 ， 递 归 调 用 DeepDream 算 法 。 我 们 执行 5 个 递归 ( num repeats +1) ， 每 
个 步骤 中 图 像 都 被 模糊 并 缩小 ， 然 后 在 缩小 图 像 上 运行 DeepDream 算 法 。 接 着 ， 在 
每 个 步骤 中 ， 将 产生 的 DeepDream 图 像 与 原始 图 像 混合 ， 从 原始 图 像 获取 一 点 细 
节 。 这 个 过 程 重复 了 多 次 。 


注意 ， 现 在 DeepDream 的 图 REKT ° REA ARAETH EALA E S 
R>oREERADHARA REMIT aM o 


img_result = recursive_optimize(layer_tensor=layer_tensor, image 
=image, 

num_iterations=10, step_size=3.0, rescale_facto 
r=0. 7; 

num_repeats=4, blend=0. 2) 


Recursive level: 0 
Image before: 





Processing image: 
Image after: 





Recursive level: 1 
Image before: 





Processing image: 
Image after: 





Recursive level: 2 
Image before: 





Processing image: 
Image after: 





Recursive level: 3 
Image before: 





Processing image: 
Image after: 





Recursive level: 4 
Image before: 





Processing image: 
Image after: 





现在 我 们 将 最 大 化 Inception 模 型 中 的 较 RATTE 


输入 图 像 中 更 复杂 的 形状 ， 所 以 De 法 也 将 产生 更 复杂 的 图 像 。 
平 识 别 了 狗 的 脸 和 毛发， 因此 DeepDream 算 法 往 图 像 中 添加 了 这 些 东西 。 


再 次 注意 ， 与 DeepDream 划 法 其 他 变 体 不 同 的 是 ， 这 里 输入 图 像 的 大 部 分 磊 色 被 保 
留 了 下 来 ， 创 建 了 更 多 柔和 的 闫 色 。 这 是 因为 我 们 在 闫 色 通道 中 平滑 了 梯度 ， 使 其 
变 得 有 点 像 灰 阶 ， 因 此 不 会 太 多 地 改变 输入 图 像 的 颜色 。 


(索引 6) 为 例 。 该 层 识别 
这 一 层 似 


layer_tensor = model.layer_tensors[6] 
img_result = recursive_optimize(layer_tensor=layer_tensor, image 
=image, 

num_iterations=10, step_size=3.0, rescale_facto 
FEB, 7, 

num_repeats=4, blend=0. 2) 


下 面 这 个 例子 用 DeepDream 算 法 来 最 大 化 层 的 特征 通道 的 子 集 。 此 时 层 的 索引 为 
7， 并 且 只 有 前 3 个 特征 通道 被 最 大 化 。 


layer tensor = model. layer_tensors[7][:,:,:,9:3] 
img_result = recursive_optimize(layer_tensor=layer_tensor, image 
=image, 

num_iterations=10, step_size=3.0, rescale_facto 
r=0.7, 

num_repeats=4, blend=0.2) 


这 个 例子 展示 了 最 大 化 Inception 模 型 最 后 一 层 的 第 一 个 特征 通道 的 结果 。 不 太 清 楚 
这 一 层 及 这 个 特征 可 能 会 在 输入 图 像 中 识别 出 什么 来 。 


( 译 者 注 : 原文 的 num repeates 参数 设 为 4， 我 在 配 有 NVIDIA GT 650M 的 笔记 
本 上 运行 程序 时 ， 会 出 现 内 存 不 足 的 情况 。 因 此 ， 下 面 将 num_repeates 设 为 3， 
需要 的 话 可 以 自己 改 回来 。) 


layer tensor = model.layer_tensors[11][:,:,:,0] 
img_result = recursive_optimize(layer_tensor=layer_tensor, image 
=image, 

num_iterations=10, step_size=3.0, rescale_facto 
[20.7 

num repeats-3, blend=0.2) 


Giger 


image - load image(filename-'images/giger.jpg') 
plot image(image) 





layer_tensor = model.layer_tensors[3] 
img_result = recursive_optimize(layer_tensor=layer_tensor, image 
=image, 


num_iterations=10, step_size= , rescale facto 
r= : 
num repeats-3, blend= ) 


layer tensor - model.layer tensors[5] 
img result - recursive optimize(layer tensor-layer tensor, image 


-image, 
num iterations-10, step size- , rescale facto 
r= ; 
num repeats-3, blend= ) 
Escher 


image - load image(filename-'images/escher planefilling2.jpg') 
plot image(image) 
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layer_tensor = model.layer_tensors[6] 
img_result = recursive_optimize(layer_tensor=layer_tensor, image 
=image, 

num_iterations=10, step_size=3.0, rescale_facto 
r=0.7, 

num_repeats=3, blend=0.2) 
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现在 我 们 已 经 用 TensorFlow 完 成 了 任务 ， 关 闭 session， 释 放 资 源 。 


# This has been commented out in case you want to modify and exp 
eriment 

# with the Notebook without having to restart it. 

# session.close() 


im 


& 
这 篇 教程 展示 了 如 何 使 用 神经 网 络 的 梯度 来 放大 图 像 中 的 图 案 。 输 出 图 像 似乎 已 经 
用 抽象 的 或 类 似 动物 的 图 案 来 重新 绘制 了 。 


还 有 许多 这 种 技术 的 变 体 ， 来 生成 不 同 的 输出 图 人像。 我 们 鼓励 你 修改 上 述 参数 和 算 
法 进行 实验 。 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 尝试 使 用 自己 的 图 像 。 

e 试 试 optimize_image() 和 recursive_optimize() 的 不 同 参数 ， 看 看 它 如 
何 影响 结果 。 

e 试 着 去 掉 optimize_image() 中 的 梯度 。 会 发 生 什 么 ? 

e 在 运行 optimize image() 时 绘制 梯度 。 会 看 到 一 些 失 丨 吗 ? 你 认为 是 什么 
原因 ? 这 重要 吗 ? 你 能 找到 一 种 方法 来 去 掉 它 们 吗 ? 

e 尝试 使 用 随机 噪声 作为 输入 图 像 。 这 与 教程 六 13 中 用 于 可 视 化 分 析 的 类 似 。 会 
生成 比 本 教程 中 更 好 的 图 像 吗 ?为 什么 ? 

e 在 inception5h.py 这 个 文件 的 Inception5h.get_gradient() & > A] 

除 tf.square() ° DeepDream 图 像 会 发 生 什 么 变化 ?为 什么 ? 

你 可 以 将 梯度 移 到 optimize image() 外 面 以 节省 内 存 吗 ? 

e 你 能 使 程序 运行 得 更 快 吗 ? 一 个 想法 是 直接 在 TensorFlow 中 实现 高 斯 模糊 和 调 

整 大 小 。 

通过 重复 调用 optimize image() 并 在 图 像 上 放大 一 点 ， 制 作 一 个 

DeepDream 电 影 。 

e 逐 帧 处 理 电 影 。 您 可 能 需要 在 帧 间 保 持 稳定 。 

向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 
modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, 
and to permit persons to whom the Software is furnished to do so, subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


TensorFlow 教程 #15 


风格 迁移 


by Magnus Erik Hvass Pedersen / GitHub / Videos on YouTube 
中 文 翻译 thrillerist / Github 


介绍 
在 之 前 的 教程 #14 中 ， ' 我们 看 到 了 如 何 最 大 化 神经 网 络 内 部 的 特征 激活 ， 以 便 放大 
输入 图 像 中 的 模式 。 这 个 称 为 DeepDream 。 


本 文采 用 了 类 似 的 想法 ， a, : 一 张 内 容 图 像 和 一 张 风 格 图 像 。 然 
后 ， 我 们 希望 创建 一 张 混合 图 像 ， 它 包含 了 内 容 图 的 轮廓 以 及 风格 图 的 纹理 。 


本 文 基于 之 前 的 教程 。 你 需要 大 概 地 熟悉 神经 网 络 ( 详 见 教程 #01 和 #02) > 398 
教程 #14 中 的 DeepDream 也 很 有 帮助 。 


流程 图 


这 张 流程 图 显示 了 风格 迁移 算法 的 大 体 想 法 ， 尽 管 比 起 图 中 所 展示 出 来 的 ， 我 们 所 
使 用 的 VGG-16 模 型 有 更 多 的 层次 。 


| 神经 网 络 中 : 一 张 内 容 图 像 和 一 张 风格 图 像 。 EE 上 1 建 一 张 混 
合 图 像 ， 人 金 了 内 容 图 的 轮廓 以 及 风格 图 的 纹理 。 我 们 通 建 几 个 可 以 被 优化 
a I= e 


内 容 图 像 的 损失 函数 会 试 着 在 网 络 的 某 一 层 或 多 层 上 ， 最 小 化 内 容 图 像 以 及 混合 图 
像 激 活 特 征 的 差距 。 这 使 得 混合 图 像 和 内 容 图 像 的 的 轮廓 相似 。 


风格 图 像 的 损失 部 数 稍微 复杂 一 些 ， 因 为 它 试图 让 风格 图 像 和 混合 图 像 的 格拉 姆 矩 
阵 (Gram-matrices) 的 差异 最 小 化 。 这 在 网 络 的 一 个 或 多 个 层 中 完成 。Gram- 
matrices 度 量 了 哪个 特征 在 给 台 定 层 中 同时 被 激活 。 改 变 混合 图 像 ， ， 使 其 模仿 风格 图 
像 的 激活 模式 (activation patterns)， 这 将 导致 颜色 和 纹理 的 迁移 。 


我 们 用 TensorFlow 来 自动 导出 这 些 损 失 函 数 的 梯度 。 然 后 用 梯度 来 更 新 混合 图 像 。 
重复 多 次 这 个 过 程 ， 直 到 我 们 对 结果 图 像 满意 为 止 。 


风格 迁移 算法 的 一 些 细节 没有 在 这 张 流 程 图 中 显示 出 来 ， 比 如 ， 对 于 Gram- 
matrices 的 计算 ， 计 算 并 保存 中 间 值 来 提升 效率 ， 还 有 一 个 用 来 给 混合 图 像 去 嗓 的 
损失 函数 ， 对 损失 函数 做 归 一 化 (normalization) ， 这 样 它们 更 容易 相对 彼此 缩 
AX o 


from IPython.display import Image, display 
Image( 'images/15_style_transfer_flowchart.png') 
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Imports 


%matplotlib inline 

import matplotlib.pyplot as plt 
import tensorflow as tf 

import numpy as np 

import PIL.Image 


使 用 Python3.5.2 (Anaconda) 开发 ，TensorFlow 版 本 是 : 


tf. version _ 


'0.11.0rco' 


VGG-16 模型 


我 花 了 两 天 时 间 ， 想 用 之 前 教程 #14 中 在 DeepDream 上 使 用 4 Inception 5h 模 型 来 
实现 风格 迁移 算法 ， 但 无 法 得 到 看 起 来 足够 好 的 图 像 。 这 有 点 奇怪 ， 因 为 教程 #14 
中 生成 的 图 像 看 起 来 捍 好 的 。 但 回想 起 来 ， Bean Br 
来 得 到 这 种 质量 ， 比 如 平滑 梯度 以 及 递归 的 降 采 样 并 处 理 图 像 。 


原始 论文 使 用 了 VGG-19 卷 积 神 经 网 络 。 出 于 由 于 某 些 原因 ， 对 于 TendorFlow 来 
说 ， 预 训练 的 VGG-19 模 型 在 本 教程 中 不 够 稳定 。 因 此 我 们 使 用 VGG-16 模 型 ， 这 是 
其 他 人 制作 的 ， 可 以 很 容易 地 获取 并 在 TensorFlow 中 载 入 。 方 便 起 见 ， 我 们 封装 了 
dy d is 


import vgg16 


VGG- de de 。 这 是 你 保存 数据 文件 的 默认 文件 夹 。 如 果 文 件 夹 不 
存在 ， 它 就 会 被 创建 


# vggi6.data_dir = 'vgg16/' 
Download the data for the VGG-16 model if it doesn't already exist in the directory. 
WARNING: It is 550 MB! 


如 果 文 件 夹 中 没有 VGG-16 模 型 ， 就 自动 下 载 。 
注意 : 它 有 500MB ! 


vgg16.maybe_download() 


Downloading VGG16 Model ... 
Data has apparently already been downloaded and unpacked. 


操作 图 像 的 帮助 函数 


ele oe ee 并 返回 一 个 浮 点 型 numpy 数 组 。 图 像 可 以 被 自动 地 改变 大 
小 ， 因 此 最 大 的 宽 高 等 于 max size 。 





def load_image(filename, max_size=None): 


image = PIL.Image.open(filename) 


if max_size is not None: 
# Calculate the appropriate rescale-factor for 
# ensuring a max height and width, while keeping 
# the proportion between them. 
factor = max_size / np.max(image.size) 


# Scale the image's height and width. 
size = np.array(image.size) * factor 


# The size is now floating-point because it was scaled. 
# But PIL requires the size to be integers. 
size = size.astype(int) 


# Resize the image. 
image = image.resize(size, PIL.Image.LANCZOS) 


# Convert to numpy floating-point array. 
return np.float32(image) 


将 图 像 保存 成 一 个 jpeg 文 件 。 给 到 的 图 像 是 一 个 包含 0 到 255 像 素 值 的 numpy 数 组 。 


def save_image(image, filename): 


这 个 函数 绘制 出 一 张大 的 图 像 。 给 到 的 图 像 是 一 个 包含 0 到 255 像 素 值 的 numpy 数 


组 。 


# Ensure the pixel-values are between 0 and 255. 
image = np.clip(image, 0.0, 255.0) 


# Convert to bytes. 
image = image.astype(np.uint8) 


# Write the image-file in jpeg-format. 
with open(filename, 'wb') as file: 
PIL.Image.fromarray(image).save(file, 'jpeg') 


def plot image big(image): 


# Ensure the pixel-values are between @ and 255. 
image = np.clip(image, 0.0, 255.0) 


# Convert pixels to bytes. 
image = image.astype(np.uint8) 


# Convert to a PIL-image and display it. 
display(PIL.Image.fromarray(image)) 
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VI 


这 个 函数 画 出 内 容 图 像 ， 混 合 图 像 以 及 风格 图 像 。 


def plot_images(content_image, style_image, mixed_image): 
# Create figure with sub-plots. 
fig, axes = plt.subplots(1, 3, figsize=(10, 10)) 


# Adjust vertical spacing. 
fig.subplots_adjust(hspace=0.1, wspace=0.1) 


# Use interpolation to smooth pixels? 
smooth = True 


# Interpolation type. 


if smooth: 

interpolation = 'sinc' 
else: 

interpolation = 'nearest' 


# Plot the content-image. 

# Note that the pixel-values are normalized to 

# the [0.0, 1.0] range by dividing with 255. 

ax = axes.flat[0] 

ax.imshow(content_image / 255.0, interpolation=interpolation 


ax.set_xlabel("Content") 


# Plot the mixed-image. 

ax = axes.flat|1] 

ax.imshow(mixed_image / 255.0, interpolation=interpolation) 
ax.set_xlabel("Mixed") 


# Plot the style-image 

ax = axes.flat[2] 

ax.imshow(style_image / 255.0, interpolation=interpolation) 
ax.set_xlabel("Style") 


# Remove ticks from all the plots. 
for ax in axes.flat: 
ax.set_xticks([]) 
ax.set_yticks([]) 
# Ensure the plot is shown correctly with multiple plots 


# in a single Notebook cell. 
plt.show() 


MASK 


这 些 帮 助 函 数 创 建 了 在 TensorFlow 优 化 中 用 的 损失 函数 。 


这 个 函数 创建 了 一 个 TensorFlow 运 算 ， 用 来 计算 两 个 输入 张 量 的 最 小 平均 误差 
(Mean Squared Error) 。 


def mean_squared_error(a, b): 
return tf.reduce_mean(tf.square(a - b)) 


这 个 函数 创建 了 内 容 图 像 的 损失 函数 。 它 是 在 给 定 层 中 ， 内 容 图 像 和 混合 图 像 激活 
特征 的 最 小 平均 误差 。 当 内 容 损失 最 小 时 ， 意 味 着 在 给 定 导 中， 混合 图 像 与 内 容 图 
像 的 激活 特征 很 相似 。 根 据 你 所 选择 的 层次 ， 这 会 将 内 容 图 像 的 轮廓 迁移 到 混合 图 
像 中 。 


def create content loss(session, model, content_image, layer_ids) 


Create the loss-function for the content-image. 


Parameters: 
session: An open TensorFlow session for running the model's 
graph. 


model: The model, e.g. an instance of the VGG16-class. 

content_image: Numpy float array with the content-image. 

layer_ids: List of integer id's for the layers to use in the 
model. 


# Create a feed-dict with the content-image. 
feed dict = model.create_feed_dict(image=content_image) 


# Get references to the tensors for the given layers. 
layers = model.get_layer_tensors(layer_ids) 


# Calculate the output values of those layers when 
# feeding the content-image to the model. 
values = session.run(layers, feed_dict=feed_dict) 


# Set the model's graph as the default so we can add 
# computational nodes to it. It is not always clear 
# when this is necessary in TensorFlow, but if you 
# want to re-use this code then it may be necessary. 
with model.graph.as_default(): 
# Initialize an empty list of loss-functions. 
layer_losses = [] 


# For each layer and its corresponding values 
# for the content-image. 
for value, layer in zip(values, layers): 
# These are the values that are calculated 
# for this layer in the model when inputting 
# the content-image. Wrap it to ensure it 
# is a const - although this may be done 
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# automatically by TensorFlow. 
value_const = tf.constant(value) 


The loss-function for this layer is the 

Mean Squared Error between the layer-values 
when inputting the content- and mixed-images. 
Note that the mixed-image is not calculated 
yet, we are merely creating the operations 
for calculating the MSE between those two. 
oss = mean_squared_error(layer, value_const) 


HT dt 3k HHH 


# Add the loss-function for this layer to the 
# list of loss-functions. 
layer_losses.append(loss) 


# The combined loss for all layers is just the average. 
# The loss-functions could be weighted differently for 
# each layer. You can try it and see what happens. 
total loss = tf.reduce_mean(layer_losses) 


return total_loss 
U Hi 


我 们 将 对 风格 层 做 相同 的 处 理 ， 但 现在 需要 度量 出 哪些 特征 在 风格 层 和 风格 图 像 中 
同时 被 激活 ， 接 着 将 这 些 激活 模式 复制 到 混合 图 像 中 。 

一 种 办 法 是 为 风格 层 的 输出 张 量 计算 一 个 所 谓 的 格拉 姆 矩阵 (Gram-matrix) ° 
Gram-matrix 本 质 上 就 是 风格 层 中 激活 特征 向 量 的 点 乘 矩 阵 。 


如 果 Gram-matrix 中 的 一 个 元 素 的 值 接近 于 0， 这 意味 着 给 定 层 的 两 个 特征 在 风格 图 
像 中 没有 同时 激活 。 反 之 亦 然 ， 如 果 Gram-matrix 中 有 很 大 的 值 ， 代 表 着 两 个 特征 
同时 被 激活 。 接 着 ， 我 们 会 试图 生成 复制 了 风格 图 像 激活 模式 的 混合 图 像 。 


这 个 帮助 函数 用 来 计算 神经 网 络 中 卷 积 层 输出 张 量 的 Gram-matrix。 丨 正 的 损失 元 
数 会 在 后 面 创建 。 


风格 迁移 


def gram matrix(tensor): 
shape = tensor.get shape() 


# Get the number of feature channels for the input tensor, 

# which is assumed to be from a convolutional layer with 4-d 
im. 

num_channels = int(shape[3]) 


# Reshape the tensor so it is a 2-dim matrix. This essential 


ly 
# flattens the contents of each feature-channel. 
matrix = tf.reshape(tensor, shape=[-1, num channels]) 


# Calculate the Gram-matrix as the matrix-product of 

# the 2-dim matrix with itself. This calculates the 

# dot-products of all combinations of the feature-channels. 
gram = tf.matmul(tf.transpose(matrix), matrix) 


return gram 


下 面 的 函数 创建 了 风格 图 像 的 损失 函数 。 它 和 上 面 的 create content loss() 很 
像 ， 除 了 我 们 是 计算 Gram-matrix 而 非 layer 输 出 张 量 的 最 小 平方 误差 。 


def create_style_loss(session, model, style image, layer_ids): 


Create the loss-function for the style-image. 


Parameters: 
session: An open TensorFlow session for running the model's 
graph. 


model: The model, e.g. an instance of the VGG16-class. 

style_image: Numpy float array with the style-image. 

layer_ids: List of integer id's for the layers to use in the 
model. 


# Create a feed-dict with the style-image. 
feed_dict = model.create_feed_dict(image=style_image) 


# Get references to the tensors for the given layers. 
layers = model.get_layer_tensors(layer_ids) 


# Set the model's graph as the default so we can add 

# computational nodes to it. It is not always clear 

# when this is necessary in TensorFlow, but if you 

# want to re-use this code then it may be necessary. 

with model.graph.as_default(): 
# Construct the TensorFlow-operations for calculating 
# the Gram-matrices for each of the layers. 
gram_layers = [gram_matrix(layer) for layer in layers] 
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# Calculate the values of those Gram-matrices when 
# feeding the style-image to the model. 
values = session.run(gram_layers, feed_dict=feed_dict) 


# Initialize an empty list of loss-functions. 
layer_losses = [] 


# For each Gram-matrix layer and its corresponding value 


S. 
for value, gram_layer in zip(values, gram_layers): 

# These are the Gram-matrix values that are calculat 
ed 

# for this layer in the model when inputting the 

# style-image. Wrap it to ensure it is a const, 

# although this may be done automatically by TensorF 
low. 


value_const = tf.constant(value) 


The loss-function for this layer is the 

Mean Squared Error between the Gram-matrix values 
for the content- and mixed-images. 

Note that the mixed-image is not calculated 

yet, we are merely creating the operations 

for calculating the MSE between those two. 
oss = mean_squared_error(gram_layer, value_const) 


e dt dt dt dt dk dk 


# Add the loss-function for this layer to the 
# list of loss-functions. 
layer losses.append(loss) 


# The combined loss for all layers is just the average. 
# The loss-functions could be weighted differently for 
4 each layer. You can try it and see what happens. 
total loss - tf.reduce mean(layer losses) 


return total loss 


下 面 创建 了 用 来 给 混合 图 像 去 骂 的 损失 函数 。 这 个 算法 称 为 Total Variation 
Denoising， 本 质 上 就 是 在 x 和 y 轴 上 将 图 像 偏 移 一 个 像素 ， 计 算 它 与 原始 图 像 的 差 
异 ， 取 绝对 值 保 证 差异 是 正 值 ， 然 后 对 整个 图 像 所 有 像素 求 和 。 这 个 步骤 创建 了 一 
个 可 以 最 小 化 的 损失 函数 ， 用 来 抑制 图 像 中 的 噪声 。 


def create_denoise_loss(model): 
loss = tf.reduce sum(tf.abs(model.input[:,1:,:,:] - model.in 
put[:,:-1,:,:])) +N 
tf.reduce_sum(tf.abs(model.input[:,:,1:,:] - model.in 
put[:,:,:-1,:])) 


return loss 
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风格 迁移 算法 


这 是 风格 迁移 主要 的 优化 算法 。 它 基本 上 就 是 在 上 面 定 义 的 那些 损失 函数 上 做 梯度 


TÉ e 


算法 也 使 用 了 损失 函数 的 归 一 化 。 这 似乎 是 一 个 之 前 未 发 表 过 的 新 颖 想法 。 在 每 次 
优化 迭代 中 ， 调 整 损失 值 ， 使 它们 等 于 一 。 这 让 用 户 可 以 独立 地 设置 所 选 风格 层 以 
及 内 容 层 的 损失 权重 。 同 时 ， 在 优化 过 程 中 也 修改 权重 ， 来 确保 保留 风格 、 内 容 、 
FEZ BEER KLE o 


def style transfer (content image, style image, 


content layer ids, style layer ids, 

weight content-1.5, weight style-10.0, 

weight denoise-0.3, 

num iterations-120, step size-10.0): 
Use gradient descent to find an image that minimizes the 
loss-functions of the content-layers and style-layers. This 
should result in a mixed-image that resembles the contours 
of the content-image, and resembles the colours and textures 
of the style-image. 


Parameters: 

content image: Numpy 3-dim float-array with the content-imag 
e. 

style image: Numpy 3-dim float-array with the style-image. 

content layer ids: List of integers identifying the content- 
layers. 

style layer ids: List of integers identifying the style-laye 
rs. 


weight content: Weight for the content-loss-function. 

weight style: Weight for the style-loss-function. 

weight denoise: Weight for the denoising-loss-function. 

num iterations: Number of optimization iterations to perform 


step size: Step-size for the gradient in each iteration. 


# Create an instance of the VGG16-model. This is done 

# in each call of this function, because we will add 

# operations to the graph so it can grow very large 

# and run out of RAM if we keep using the same instance. 
model = vgg16.VGG16() 


# Create a TensorFlow-session. 
session = tf.InteractiveSession(graph=model.graph) 


# Print the names of the content-layers. 
print("Content layers:") 
print(model.get_layer_names(content_layer_ids)) 
print() 
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# Print the names of the style-layers. 
print("Style layers:") 
print(model.get_layer_names(style_layer_ids)) 
print() 


# Create the loss-function for the content-layers and -image. 
loss_content = create_content_loss(session=session, 


model=model, 
content_image=content_ima 


ge, 
layer_ids=content_layer_i 
ds) 
# Create the loss-function for the style-layers and -image. 
loss_style = create_style_loss(session=session, 
model=model, 
style_image=style_image, 
layer ids-style layer ids) 
# Create the loss-function for the denoising of the mixed-im 
age. 


loss denoise - create denoise loss(model) 


# Create TensorFlow variables for adjusting the values of 
# the loss-functions. This is explained below. 

adj content = tf.Variable(1e-10, name='adj_content' ) 

adj style = tf.Variable(1e-10, name-'adj style') 

adj denoise = tf.Variable(1e-10, name='adj_denoise' ) 


# Initialize the adjustment values for the loss-functions. 
session.run([adj_content.initializer, 
adj_style.initializer, 
adj denoise.initializer]) 


# Create TensorFlow operations for updating the adjustment v 
alues. 

# These are basically just the reciprocal values of the 

# loss-functions, with a small value 1e-10 added to avoid the 


# possibility of division by zero. 


update adj content = adj content .assign(1i.0 / (loss content 
* 1e-10)) 


update adj style = adj style.assign(1.0 / (loss style + 1e-10 
)) 

update adj denoise = adj_denoise.assign(1.0 / (loss denoise 
* 1e-10)) 

# This is the weighted loss-function that we will minimize 


# below in order to generate the mixed-image. 
# Because we multiply the loss-values with their reciprocal 





# adjustment values, we can use relative weights for the 
# loss-functions that are easier to select, as they are 
# independent of the exact choice of style- and content-laye 


PSE 


loss_combined = weight_content * adj_content * loss_content 


weight_style * adj_style * loss_style + \ 
weight_denoise * adj_denoise * loss_denoise 


# Use TensorFlow to get the mathematical function for the 
# gradient of the combined loss-function with regard to 

# the input image. 

gradient = tf.gradients(loss_combined, model.input) 


# List of tensors that we will run in each optimization iter 


ation. 


run_list = [gradient, update_adj_content, update_adj_style, 


N 


update adj denoise] 


# The mixed-image is initialized with random noise. 
# It is the same size as the content-image. 
mixed image = np.random.rand(*content image.shape) + 128 


for i in range(num iterations): 


299: 


# Create a feed-dict with the mixed-image. 
feed_dict = model.create_feed_dict(image=mixed_image) 


# Use TensorFlow to calculate the value of the 

# gradient, as well as updating the adjustment values. 
grad, adj_content_val, adj_style_val, adj_denoise_val \ 
= session.run(run_list, feed_dict=feed_dict) 


# Reduce the dimensionality of the gradient. 
grad = np.squeeze(grad) 


# Scale the step-size according to the gradient-values. 
step_size_scaled = step_size / (np.std(grad) + 1e-8) 


# Update the image by following the gradient. 
mixed_image -= grad * step_size_scaled 


# Ensure the image has valid pixel-values between 0 and 
mixed_image = np.clip(mixed_image, 0.0, 255.0) 


# Print a little progress-indicator. 
print(". ", end="") 


# Display status once every 10 iterations, and the last. 
if (i % 10 == 0) or (i == num iterations - 1): 

print() 

print("Iteration:", i) 
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# Print adjustment weights for loss-functions. 

msg = "Weight Adj. for Content: {0:.2e}, Style: {1:. 
2e}, Denoise: {2:.2e}" 

print(msg.format(adj_content_val, adj style val, adj 
_denoise_val)) 


# Plot the content-, style- and mixed-images. 
plot_images(content_image=content_image, 
style_image=style_image, 
mixed_image=mixed_image) 
print() 
print("Final image:") 
plot_image_big(mixed_image) 


# Close the TensorFlow session to release its resources. 
session.close() 


# Return the mixed-image. 
return mixed image 
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例子 


这 个 例子 展示 了 如 何 将 多 张 图 像 的 风格 迁移 到 一 张 肖像 上 。 
首先 ， 我 们 载 入 内 容 图 像 ， 它 有 混合 图 像 想 要 的 大 体 轮 廓 。 


content filename = 'images/willy_wonka_old.jpg' 
content_image = load_image(content_filename, max_size=None) 


然后 我 们 载 入 风格 图 像 ， 它 拥有 混合 图 像 想 要 的 颜色 和 纹理 。 


style_filename = 'images/style7.jpg' 
style_image = load_image(style_filename, max_size=300) 


接着 我 们 定义 一 个 整数 列表 ， 它 代表 神经 网 络 中 我 们 用 来 匹配 内 容 图 像 的 层次 。 这 
些 是 神经 网 络 层 次 的 索引 。 对 于 VGG16 模 型 ， 第 5 层 (索引 4) 似乎 是 唯一 有 效 的 
内 容 层 。 


content_layer_ids = [4] 


然后 ， 我 们 为 风格 层 定 义 另外 一 个 整 型 数组 。 


# The VGG16-model has 13 convolutional layers. 

# This selects all those layers as the style-layers. 
# This is somewhat slow to optimize. 

style_layer_ids = list(range(13)) 


# You can also select a sub-set of the layers, e.g. like this: 
# style_layer_ids = [1, 2, 3, 4] 


现在 执行 风格 迁移 。 它 自动 地 为 风格 图 像 、 内 容 图 像 创建 合适 的 损失 函数 ， 然 后 进 
行 多 次 优化 迭代 。 这 将 逐步 地 生成 一 张 混合 图 像 ， 其 拥有 内 容 图 像 的 大 体 轮 廉 ， 并 
EMA. MEF MARR © 


在 CPU 上 这 个 运算 会 很 慢 ! 


%%time 

img = style_transfer(content_image=content_image, 
style_image=style_image, 
content_layer_ids=content_layer_ids, 
style_layer_ids=style_layer_ids, 
weight_content=1.5, 
weight_style=10.0, 
weight_denoise=0.3, 
num_iterations=60, 
step_size=10.0) 


Content layers: 
['conv3 1/conv3 1'] 


Style layers: 

[ conv1 1/convi 1', 'convi_2/convi_2', 'conv2 1/conv2 1', 'conv2 
_2/conv2_2', 'conv3 1/conv3 1', 'conv3 2/conv3 2', 'conv3 3/conv 
3 3', 'conv4_1/conv4_1', 'conv4 2/conv4 2', 'conv4 3/conv4 3', ' 
conv5 1/conv5 1', 'convb5 2/conv5 2', 'convb5 3/conv5 3'] 


Iteration: 0 
Weight Adj. for Content: 5.18e-11, Style: 2.14e-29, Denoise: 5.6 
1e-06 





Content 


Iteration: 10 
Weight Adj. for Content: 2.79e-11, Style: 4.13e-28, Denoise: 1.2 
5e-07 
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Iteration: 20 
Weight Adj. for Content: 2.63e-11, Style: 1.09e-27, Denoise: 1.3 
0e-07 
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Iteration: 30 
Weight Adj. for Content: 2.66e-11, Style: 1.27e-27, 
7e-07 
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Content 


Iteration: 40 
Weight Adj. for Content: 2.73e-11, Style: 1.16e-27, 
6e-07 
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Content 


Iteration: 50 
Weight Adj. for Content: 2.75e-11, Style: 1.12e-27, 
4e-07 


Denoise: 1.2 





Denoise: 1.2 





Denoise: 1.2 
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Iteration: 59 
Weight Adj. for Content: 1.85e-11, Style: 3.86e-28, Denoise: 1.0 
1e-07 
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CPU times: user 20min 1s, sys: 45.5 s, total: 20min 46s 
Wall time: 3min 4s 
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这 篇 教程 说 明了 用 神经 网 络 来 结合 两 张 图 像 内 容 和 风格 的 基本 想法 。 不 幸 的 是 ， 结 
果 并 不 像 一 些 商业 系统 那么 好 ， 比 如 DeepArt， 它 是 由 这 种 技术 的 一 些 先 驱 者 开发 
的 。 (结果 不 好 的 ) 原因 暂 不 明确 。 也 许 我 们 只 是 需要 更 强 的 计算 力 ， 可 以 在 高 分 
辩 率 图 像 上 以 更 小 的 步 长 ， 运 行 更 多 的 优化 和 迭代。 或 许 我 们 需要 更 复杂 的 优化 方 
法 。 下 面 的 练习 给 出 了 一 些 可 能 会 提升 质量 的 建议 ， 鼓 励 你 尝试 一 下 。 


练习 


下 面 使 一 些 可 能 会 让 你 提升 TensorFlow 技 能 的 一 些 建议 练习 。 为 了 学 习 如 何 更 合适 
地 使 用 TensorFlow， 实 践 经 验 是 很 重要 的 。 


在 你 对 这 个 Notebook 进 行 修改 之 前 ， 可 能 需要 先 备份 一 下 。 


e 试 着 使 用 其 他 图 像 。 本 文中 包含 了 一 些 风格 图 像 。 你 可 以 使 用 自己 的 图 像 。 

e 试 着 更 多 的 迭代 次 数 (比如 1000-5000) ， 以 及 更 小 的 步 长 (比如 1.0-3.0) ° 
它 会 提升 质量 吗 ? * 改变 风格 层 、 内 容 层 以 及 去 骂 时 的 权重 。 

e. 试 着 从 内 容 或 风格 图 像 开 始 优化 ， 或 许 二 者 的 平均 。 你 可 以 加 入 一 些 噪声 。 

试 着 改变 风格 图 和 内 容 图 的 分 辨 座 。 在 load_image() 函数 中 ， 你 可 以 

用 max size 参数 来 改变 图 像 大 小 。 它 对 结果 有 什么 影响 ? 

试 着 使 用 VGG-16 模 型 的 其 他 层 。 

改变 代码 ， 使 其 每 10 次 优化 选 代 就 保存 图 像 。 

在 优化 过 程 中 使 用 常数 权重 。 它 对 结果 有 何 影响 ? 

在 风格 层 中 使 用 不 同 的 权重 。 同 样 ， 试 着 像 其 他 损失 函数 一 样 自动 调整 权重 。 

用 TensorFlow 的 ADAM 优 化 器 来 代替 基本 的 梯度 下 降 。 

使 用 L-BFGS 优 化 器 。 目 前 在 TensorFlow 中 没有 实现 这 个 。 你 能 在 风格 迁移 算 

法 中 使 用 SciPy 中 实现 的 优化 器 么 ? 它 有 提升 结果 吗 ? 

e 用 另外 的 预 训练 网 络 ， 比 如 我 们 在 教程 #14 中 使 用 的 Inception 5h 模 型 ， 或 者 用 
你 从 网 上 找到 的 VGG-19 模 型 。 

e 向 朋友 解释 程序 如 何 工 作 。 


License (MIT) 


Copyright (c) 2016 by Magnus Erik Hvass Pedersen 


Permission is hereby granted, free of charge, to any person obtaining a copy of 
this software and associated documentation files (the "Software"), to deal in the 
Software without restriction, including without limitation the rights to use, copy, 


modify merge, publish, distribute, sublicense, and/or sell copies of the Software， 
and to permit persons to whom the Software is furnished to do so, Subject to the 
following conditions: 


The above copyright notice and this permission notice shall be included in all 
copies or substantial portions of the Software. 


THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, 
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE 
WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR 
PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS 
OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR 
OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR 
OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE 
SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. 


